凯迪微信公众号
扫描二维码关注
发现信息价值

微信扫一扫
分享此帖文

回帖人: | 只看此人 | 不看此人 | 2012/10/5 13:56:08    跟帖回复:
136
技术层面不好说,但是勇气可嘉,很有意思。
回帖人: | 只看此人 | 不看此人 | 2012/10/5 14:05:35    引用回复:
137
转至第129楼第 129 楼 伯温吴用1 2012/10/5 12:53:53 的原帖:不断词,计算机处理起来十分困难。转至第131楼第 131 楼 cyberhorse 2012/10/5 13:16:31 的原帖:实际上 这 不是 困难 不 困难 的 问题, 而是 根本 绕不过去的 坎。 必须 花费 一定的 代价 进行 分词 处理, 然后 才 谈得上 翻译 或 语义 理解。 转至第132楼第 132 楼 活水江河 2012/10/5 13:32:36 的原帖:计算机 可以 自己 断词,  中文 自动分词 已经 达到 99.8% 的 准确率,完全 可以 实用, 如有 需求, 还可以 继续 改进。转至第134楼第 134 楼 cyberhorse 2012/10/5 13:45:20 的原帖: 是啊, 我 上面 指的 就是 必须 通过 专门的 算法 进行 分词 处理。

 如果 一份 经过 人工 完全 断词 书写的 文本, 就可以 免除 这一步 处理 过程。 由此 可以 避免 机器 分词 带来的 文本 分析 错误。

机器 分词 总会 有 一定 错误。 人工 断词 有 一致性 问题, 不同人 的 分词 只有 不到 90% 的 是 一致 的。

即使 同一个 人, 也 不能 保持 完全 一致。 
回帖人: | 只看此人 | 不看此人 | 2012/10/5 14:15:42   
138

断太多了感觉不是很必要,简单的一些词句就不必了,容易引起歧义的地方 或 句子太长不容易看清的地方,引入空格符,我觉得就可以了。
容易歧义的地方:《杭州市 长春药店》 ,《杭州 市长春药店》or《杭州市长 春药店》,这样一断就可以了,不必每词必断。

怎么清晰怎么做。


此贴已经被作者于 2012/10/5 14:48:03 编辑过

回帖人: | 只看此人 | 不看此人 | 2012/10/5 14:18:43    引用回复:
139
转至第129楼第 129 楼 伯温吴用1 2012/10/5 12:53:53 的原帖:不断词,计算机处理起来十分困难。转至第130楼第 130 楼 cyberhorse 2012/10/5 13:09:48 的原帖: 人的 大脑 同样 要 占用 不少 脑细胞 和 消耗 不少的 能量。 我们 大部分 时候 感觉不到 这一点, 因为 这 已经 是 下意识的 行为。 但 从 很多 网友的 反馈 来看, 分词 以后 阅读 起来 确实 轻松 很多。 这就 足够 证明 空格分词 是 行之有效的 好方法, 值得推广。转至第133楼第 133 楼 活水江河 2012/10/5 13:36:03 的原帖:中文 分词 过去 的 对象 是 机器, 如 机器 翻译, 自然 语言 处理 等。 现在 看来 可能 对 人 也有 帮助, 请 大家 一起 来 推广。
转至第135楼第 135 楼 cyberhorse 2012/10/5 13:52:03 的原帖: 活水江河  兄 可能是 自动分词 方面的 业内 人士 吧, 呵呵。 问个问题, 能不能 做一个 浏览器的 分词 插件, 使得 浏览 网页 时 能 自动 分词 显示 文本 内容?
是的, 过去 半年 我们 花了 很大 功夫 解决 中文分词 问题, 做出 了 目前 最 准确 的 分词 系统。
可演示 http://www.yebol.com.cn/index.jsp。  并 提供 云服务。

怎样 应用, 还在 探讨,你 这个 建议 很好, 我们 可 提供 分词 服务, 你 能否 做出  浏览器 分词 插件?
 

回帖人: | 只看此人 | 不看此人 | 2012/10/5 14:19:13    引用回复:
140
转至第129楼第 129 楼 伯温吴用1 2012/10/5 12:53:53 的原帖:不断词,计算机处理起来十分困难。转至第131楼第 131 楼 cyberhorse 2012/10/5 13:16:31 的原帖:实际上 这 不是 困难 不 困难 的 问题, 而是 根本 绕不过去的 坎。 必须 花费 一定的 代价 进行 分词 处理, 然后 才 谈得上 翻译 或 语义 理解。

已隐藏重复盖楼 [点击展开]

转至第132楼第 132 楼 活水江河 2012/10/5 13:32:36 的原帖:计算机 可以 自己 断词,  中文 自动分词 已经 达到 99.8% 的 准确率,完全 可以 实用, 如有 需求, 还可以 继续 改进。
转至第134楼第 134 楼 cyberhorse 2012/10/5 13:45:20 的原帖: 是啊, 我 上面 指的 就是 必须 通过 专门的 算法 进行 分词 处理。

 如果 一份 经过 人工 完全 断词 书写的 文本, 就可以 免除 这一步 处理 过程。 由此 可以 避免 机器 分词 带来的 文本 分析 错误。

转至第137楼第 137 楼 活水江河 2012/10/5 14:05:35  的原帖:机器 分词 总会 有 一定 错误。 人工 断词 有 一致性 问题, 不同人 的 分词 只有 不到 90% 的 是 一致 的。

即使 同一个 人, 也 不能 保持 完全 一致。 
  你的 这个90% 可能是 从 阅读者的 角度 得到的 数据, 而不是 写作者的 角度。 对 他人 写的 文章 进行 分词, 错误率 越高, 越说明 写作者 主动 分词的 必要性, 呵呵。 

回帖人: | 只看此人 | 不看此人 | 2012/10/5 14:21:47    跟帖回复:
141

杭州市长春药店

 

杭州市长 春药店?

 

这例子举的……

回帖人: | 只看此人 | 不看此人 | 2012/10/5 14:23:37    引用回复:
142
转至第129楼第 129 楼 伯温吴用1 2012/10/5 12:53:53 的原帖:不断词,计算机处理起来十分困难。转至第131楼第 131 楼 cyberhorse 2012/10/5 13:16:31 的原帖:实际上 这 不是 困难 不 困难 的 问题, 而是 根本 绕不过去的 坎。 必须 花费 一定的 代价 进行 分词 处理, 然后 才 谈得上 翻译 或 语义 理解。

已隐藏重复盖楼 [点击展开]

转至第132楼第 132 楼 活水江河 2012/10/5 13:32:36 的原帖:计算机 可以 自己 断词,  中文 自动分词 已经 达到 99.8% 的 准确率,完全 可以 实用, 如有 需求, 还可以 继续 改进。
转至第134楼第 134 楼 cyberhorse 2012/10/5 13:45:20 的原帖: 是啊, 我 上面 指的 就是 必须 通过 专门的 算法 进行 分词 处理。

 如果 一份 经过 人工 完全 断词 书写的 文本, 就可以 免除 这一步 处理 过程。 由此 可以 避免 机器 分词 带来的 文本 分析 错误。

转至第137楼第 137 楼 活水江河 2012/10/5 14:05:35 的原帖:机器 分词 总会 有 一定 错误。 人工 断词 有 一致性 问题, 不同人 的 分词 只有 不到 90% 的 是 一致 的。

即使 同一个 人, 也 不能 保持 完全 一致。 
转至第140楼第 140 楼 cyberhorse 2012/10/5 14:19:13 的原帖:  你的 这个90% 可能是 从 阅读者的 角度 得到的 数据, 而不是 写作者的 角度。 对 他人 写的 文章 进行 分词, 错误率 越高, 越说明 写作者 主动 分词的 必要性, 呵呵。 

作者 主动 分词  不一致 对人 阅读 问题 不大。 对 机器 就会 是 一个 很大 的 问题。
回帖人: | 只看此人 | 不看此人 | 2012/10/5 14:29:42    跟帖回复:
143
终于 有人 说出  我  早想 说出的话。
回帖人: | 只看此人 | 不看此人 | 2012/10/5 14:32:51    引用回复:
144
转至第129楼第 129 楼 伯温吴用1 2012/10/5 12:53:53 的原帖:不断词,计算机处理起来十分困难。转至第130楼第 130 楼 cyberhorse 2012/10/5 13:09:48 的原帖: 人的 大脑 同样 要 占用 不少 脑细胞 和 消耗 不少的 能量。 我们 大部分 时候 感觉不到 这一点, 因为 这 已经 是 下意识的 行为。 但 从 很多 网友的 反馈 来看, 分词 以后 阅读 起来 确实 轻松 很多。 这就 足够 证明 空格分词 是 行之有效的 好方法, 值得推广。

已隐藏重复盖楼 [点击展开]

转至第133楼第 133 楼 活水江河 2012/10/5 13:36:03 的原帖:中文 分词 过去 的 对象 是 机器, 如 机器 翻译, 自然 语言 处理 等。 现在 看来 可能 对 人 也有 帮助, 请 大家 一起 来 推广。
转至第135楼第 135 楼 cyberhorse 2012/10/5 13:52:03 的原帖: 活水江河  兄 可能是 自动分词 方面的 业内 人士 吧, 呵呵。 问个问题, 能不能 做一个 浏览器的 分词 插件, 使得 浏览 网页 时 能 自动 分词 显示 文本 内容?
转至第139楼第 139 楼 活水江河 2012/10/5 14:18:43  的原帖:是的, 过去 半年 我们 花了 很大 功夫 解决 中文分词 问题, 做出 了 目前 最 准确 的 分词 系统。
可演示 http://www.yebol.com.cn/index.jsp。  并 提供 云服务。

怎样 应用, 还在 探讨,你 这个 建议 很好, 我们 可 提供 分词 服务, 你 能否 做出  浏览器 分词 插件?
 

浏览器插件 没有 做过, 不过 很愿意 试一试。 我对 编程 比较在行, 一通百通, 应该 不难  搞定。

回帖人: | 只看此人 | 不看此人 | 2012/10/5 14:38:35    跟帖回复:
145
断词 绝对 是 一个 正确的  方向。


假如,你 使用 外语,你会 更强烈地 意识到 这个 问题。  同样 那些 学习 汉语 的 人士 会 张开 臂膀 拥抱 这样。


回帖人: | 只看此人 | 不看此人 | 2012/10/5 14:39:33    跟帖回复:
146
 刚才 下载 了 你们 网站 上的 下载协议。

“SWJTU-NWR共享资源的完整数据和程序库的完整版本只免费提供给“高校和科研院所”用于科学研究,对于独立个人或者商业公司的申请恕不免费提供。” 要付费的?
回帖人: | 只看此人 | 不看此人 | 2012/10/5 14:41:27    引用回复:
147
转至第145楼第 145 楼 夏日晴空1234 2012/10/5 14:38:35  的原帖:断词 绝对 是 一个 正确的  方向。


假如,你 使用 外语,你会 更强烈地 意识到 这个 问题。  同样 那些 学习 汉语 的 人士 会 张开 臂膀 拥抱 这样。


 谢谢 支持。
回帖人: | 只看此人 | 不看此人 | 2012/10/5 14:43:46    跟帖回复:
148
对于 清晰 概念, 断词  是 一个  质的 飞跃。 今天 终于 看到 有人 把 这个 问题 摆上  台面 了 
回帖人: | 只看此人 | 不看此人 | 2012/10/5 14:44:05    引用回复:
149
转至第129楼第 129 楼 伯温吴用1 2012/10/5 12:53:53 的原帖:不断词,计算机处理起来十分困难。转至第130楼第 130 楼 cyberhorse 2012/10/5 13:09:48 的原帖: 人的 大脑 同样 要 占用 不少 脑细胞 和 消耗 不少的 能量。 我们 大部分 时候 感觉不到 这一点, 因为 这 已经 是 下意识的 行为。 但 从 很多 网友的 反馈 来看, 分词 以后 阅读 起来 确实 轻松 很多。 这就 足够 证明 空格分词 是 行之有效的 好方法, 值得推广。

已隐藏重复盖楼 [点击展开]

转至第133楼第 133 楼 活水江河 2012/10/5 13:36:03 的原帖:中文 分词 过去 的 对象 是 机器, 如 机器 翻译, 自然 语言 处理 等。 现在 看来 可能 对 人 也有 帮助, 请 大家 一起 来 推广。
转至第135楼第 135 楼 cyberhorse 2012/10/5 13:52:03 的原帖: 活水江河  兄 可能是 自动分词 方面的 业内 人士 吧, 呵呵。 问个问题, 能不能 做一个 浏览器的 分词 插件, 使得 浏览 网页 时 能 自动 分词 显示 文本 内容?
转至第139楼第 139 楼 活水江河 2012/10/5 14:18:43 的原帖:是的, 过去 半年 我们 花了 很大 功夫 解决 中文分词 问题, 做出 了 目前 最 准确 的 分词 系统。
可演示 http://www.yebol.com.cn/index.jsp。  并 提供 云服务。

怎样 应用, 还在 探讨,你 这个 建议 很好, 我们 可 提供 分词 服务, 你 能否 做出  浏览器 分词 插件?
 

转至第144楼第 144 楼 cyberhorse 2012/10/5 14:32:51 的原帖:浏览器插件 没有 做过, 不过 很愿意 试一试。 我对 编程 比较在行, 一通百通, 应该 不难  搞定。
很好, 你 可以 先 体验 一下 我们 的 分词 结果。 如果 满意, 可 使用 我们 的 云分词 服务。 有 任何 问题 我们 会 有 技术 支持, 尽快 帮助 解决。 
回帖人: | 只看此人 | 不看此人 | 2012/10/5 14:47:21    引用回复:
150
转至第129楼第 129 楼 伯温吴用1 2012/10/5 12:53:53 的原帖:不断词,计算机处理起来十分困难。转至第130楼第 130 楼 cyberhorse 2012/10/5 13:09:48 的原帖: 人的 大脑 同样 要 占用 不少 脑细胞 和 消耗 不少的 能量。 我们 大部分 时候 感觉不到 这一点, 因为 这 已经 是 下意识的 行为。 但 从 很多 网友的 反馈 来看, 分词 以后 阅读 起来 确实 轻松 很多。 这就 足够 证明 空格分词 是 行之有效的 好方法, 值得推广。

已隐藏重复盖楼 [点击展开]

转至第133楼第 133 楼 活水江河 2012/10/5 13:36:03 的原帖:中文 分词 过去 的 对象 是 机器, 如 机器 翻译, 自然 语言 处理 等。 现在 看来 可能 对 人 也有 帮助, 请 大家 一起 来 推广。
转至第135楼第 135 楼 cyberhorse 2012/10/5 13:52:03 的原帖: 活水江河  兄 可能是 自动分词 方面的 业内 人士 吧, 呵呵。 问个问题, 能不能 做一个 浏览器的 分词 插件, 使得 浏览 网页 时 能 自动 分词 显示 文本 内容?
转至第139楼第 139 楼 活水江河 2012/10/5 14:18:43 的原帖:是的, 过去 半年 我们 花了 很大 功夫 解决 中文分词 问题, 做出 了 目前 最 准确 的 分词 系统。
可演示 http://www.yebol.com.cn/index.jsp。  并 提供 云服务。

怎样 应用, 还在 探讨,你 这个 建议 很好, 我们 可 提供 分词 服务, 你 能否 做出  浏览器 分词 插件?
 

转至第144楼第 144 楼 cyberhorse 2012/10/5 14:32:51 的原帖:浏览器插件 没有 做过, 不过 很愿意 试一试。 我对 编程 比较在行, 一通百通, 应该 不难  搞定。
转至第149楼第 149 楼 活水江河 2012/10/5 14:44:05  的原帖:很好, 你 可以 先 体验 一下 我们 的 分词 结果。 如果 满意, 可 使用 我们 的 云分词 服务。 有 任何 问题 我们 会 有 技术 支持, 尽快 帮助 解决。 
 好的, 谢谢支持。
72609 次点击,558 个回复  1 ... 5 6 7 8 9 10 11 12 13 14 ... 38 下一页
跳转论坛至:
快速回复:[原创]论中文引入空格符断词的必要性
本站声明:本站BBS互动社区的文章由网友自行帖上,文责自负,对于网友的贴文本站均未主动予以提供、组织或修改;本站对网友所发布未经确证的商业宣传信息、广告信息、要约、要约邀请、承诺以及其他文字表述的真实性、准确性、合法性等不作任何担保和确认。因此本站对于网友发布的信息内容不承担任何责任,网友间的任何交易行为与本站无涉。任何网络媒体或传统媒体如需刊用转帖转载,必须注明来源及其原创作者。特此声明!

【管理员特别提醒】 发布信息时请注意首先阅读 ( 琼B2-20060022 ):
1.全国人大常委会关于维护互联网安全的决定2.凯迪网络BBS互动区用户注册及管理条例。谢谢!
  • 广告