凯迪微信公众号
扫描二维码关注
发现信息价值

微信扫一扫
分享此帖文

发帖人:
cyberhorse
 |  只看此人
   楼主
收藏
收藏成功
添加
添加标签来管理你的收藏吧!
| 刷新 | 字体缩小 | 字体变大
[原创]空格断词倡议(2012.11.2 修订版)
16563 次点击
106 个回复
cyberhorse 于 2012/11/2 22:04:34 发布在 凯迪社区 > 猫眼看人
    倡议书

    2012年11月02日 修改

    历史上, 中文古文 是 没有标点符号的。 文章阅读者 需付出 额外的精力 专注于断句, 且 稍有差池 便会造成 误读。 所谓 失之毫厘, 差之千里。 引入标点符号 是 一次重大的 文字改革, 使得 汉字文本的 阅读效率 有了 很大的提高。 但 中文的改革之路 才 刚刚起步, 远未达到 尽善尽美的程度。 至少 在阅读效率方面 仍然存在着 一个显而易见的障碍——断词。

    语言的最小单位 是 词, 不是 (汉字才有的)字。 语言 是 思维的表达工具, 而 思维的要素 是 概念 和 逻辑。 关于概念的定义:

    “概念(Idea; Notion; Concept)是 反映 对象的 本质属性的 思维形式。 人类 在认识过程中, 从 感性认识 上升到 理性认识, 把 所感知的事物的 共同本质特点 抽象出来, 加以概括, 就 成为 概念。 表达 概念的语言形式 是 词 或 词组。 概念 都有 内涵 和 外延, 即 它的涵义 和 适用范围。 概念 随着 社会历史 和 人类认识的 发展而变化。 中华人民共和国国家标准GB/T 15237.1—2000:‘概念’ 是 对特征的独特组合而形成的 知识单元。 德国工业标准2342 将 概念 定义为 一个 ‘通过 使用 抽象化的 方式 从 一群事物中 提取出来的 反映 其 共同特性的 思维单位’。”(摘自http://baike.baidu.com/view/45333.htm

    众所周知, 中文文本的书写格式 一直是 字 字 相连 组成 句子。 这在 古中文时代 是 自然而然的, 也是 符合  文字特点的。 不难看出, 一方面, 汉字 就其 造字的出发点 来说, 就是 用 一个字 代表 一个概念, 也就是 一字一词。 另一方面, 古代社会 发展缓慢, 概念稀少, 以 一字一词 为主, 几万个字(词) 足以表达 当时的大部分概念。 老子的 《道德经》 不就是 一个字 一个字 往外 蹦的 吗? 所以, 那时 无需 专门的符号 来标记 词的边界, 四四方方的字 就是 词的天然归宿。

    但 时过境迁, 现代中文 已经 不再是  一字一词了, 字字相连的书写格式 已经 不再适用。 随着 文化发展 大大加快, 知识概念 呈 爆炸式增长。 几万个字(词) 已经 入不敷出, 捉襟见肘。 现在 大量的词 是 由两个汉字组成的 双字词, 还有 不少词 是 三个 或 以上的 字 组成。 所以 继续沿用原来的书写格式 无疑是 刻舟求剑、 墨守成规、 不思进取的表现。 而且, 由于 违反了 语言文字的特点——以 词 为 基本操作对象, 导致 产生 种种弊端。

    弊端之一, 给阅读者 增加 额外的负担, 不利于 提高 阅读效率。 比如:“南京市长江大桥”, 解读过程 就有 一个怎么断词的问题。 断词不同, 得到的语意 也就 截然不同。 尽管 我们 在日常书面阅读过程中 不太感到 这方面的压力, 因为 我们 已经习惯于 这种字词不分的书写格式, 大部分断词过程 是 在下意识中 完成的。 感觉不到, 不等于 不需要 付出脑力。 按照 弗洛伊德 下意识理论, 人脑的大部分工作 是 处在 感觉不到的潜意识 中, 我们能够意识到的 仅仅是 冰山一角。 事实上, 计算机自动翻译、 人工智能 等领域 已经从侧面 揭示了 这个“冰山之下” 所需付出的代价, 那就是 处理中文信息 必须面对的 自动分词问题。 只要稍懂计算机编程的人 都不难理解 这个问题的大小 和 难度。 这是 中文 所特有的 一道坎。 国内 不少 研究机构 和 公司 为此 皓首穷经 十几年, 到现在 还没有彻底解决 这方面的问题, 尽管已经取得了 很大的进展。 由此可见, 读句断词 并不是 我们日常感觉的那样 简单容易, 不费吹灰之力, 而是 要花费 一定 代价的。

    弊端之二, 容易造成 望文生义, 不求甚解, 概念模糊 等 思维习惯。 目前为止, 中文 仍旧 以字为基本单位, 而不是 词! 所以 随意 拆解、 组合 词汇 是 一种天然的倾向, 作为 概念的符号 —— 词 反而被 降解了, 模糊了。 经常听到 人们苦口婆心地念叨着“要讲逻辑”,“要讲逻辑”……, 殊不知 概念 比 逻辑 更重要! 抽象思维 比 逻辑思维 更重要! 很多人 思维混乱, 理解问题 不得要领, 抓不住 事物的本质, 不是 逻辑有问题, 而是 没有明晰的概念。 须知“讲逻辑”的前提条件 就是 概念 首先要 明确、 清晰。

    解决以上问题的办法 很简单, 就是 大家一起来 倡导 用空格作为词的分隔符号!

    作者本人 曾经在凯迪论坛 发起过 这个问题的讨论主贴, 并 身体力行 以空格断词格式 发布主贴和回贴。 引来了 很多网友的共鸣和支持。 从网友的反应来看, 空格断词文本格式 确实能 改善阅读效率, 证明 了 我对字、词问题的论述 是 正确的。 在此鼓舞之下, 现在 我 正式倡议 按照以下原则 引入并使用空格:

1. 空格 必须成为 中文文本的一个正式符号。(注1)

2. 空格 在普通文本中的 用法:

   (1)专有名词(注2)前后 必须用 空格符号 与其它文字断开, 以示区别;

   (2)文章关键词的前后 应该用 空格符号 与其它文字断开, 以示强调;

   (3)其它地方 可以根据需要 适当使用空格。 比如 按照句子的语法成分(主、谓、宾、定、状、……) 或 不同语义之间 用 空格区隔。

3. 空格 在被用于信息处理的文本中的 用法: 每个词之间 都必须用 空格符号 区隔。(注3)

    注1: 目前为止, 中文文本格式中 没有 空格符的定义(首行缩进格式 可以看作 两个字符位置 而非空格);

    注2: 人名、 网名、 马夹名、 地名、 公司名称、 产品名称…… 等等;

    注3: 可以通过 文本分词转换工具 将 普通文本 转换为 信息处理用文本。

    请 大家 转告 大家, 书写文本时 不要忘记 用空格区分 词汇 或 语句成分。 写作者 举手之劳, 多一个空格, 阅读者 就 多一份 清晰。

    工欲善其事, 必先利其器。 对于 用 电脑 写作 来说, 我 这里 有 以下 两款 软件 可以 暂时 用作 空格断词 文本格式的 输入、 排版的 辅助工具, 希望 以后 会有 更好的 工具 出现。



此贴已经被作者于 2012/11/2 22:20:28 编辑过

分享: 分享到新浪微博 分享到腾讯微博 分享给朋友
凯迪社区APP下载


优秀帖文推荐

    回复 | 引用 | 举报
    回帖人: | 只看此人 | 不看此人 | 2012/11/2 22:22:39   
       沙发
        文本分词转换器

        文本分词转换器 是 利用 中科院计算所 研发的 汉语分词系统 ICTCLAS 5.0 编制的 一款 将 不分 词的 文本 转换 成 按 空格 分 词的 文本。 ICTCLAS 主要 是 供 计算机 汉字信息处理 系统 使用的 一套 分 词 处理 程序 接口, 据介绍 正确率 达 百分之 九十九点五 以上。 本 软件 借助 ICTCLAS 获得 分 词 结果, 然后 按照 以下 原则 排版输出:

    1. 标点符号 前 不留 空格;

    2. 标点符号 后面 加 空格, 也就是 相当于 句首 加 空格, 但 每一段落的 首句 前面 不加 空格。

    3. 常用 形容副词 后 不留 空格, 比如:“最……”、“很……”。 目前 只 处理了“最”和“很”, 后续 版本 将 逐渐 完善, 不 排除 提供 界面 由 用户 自定义 和 添加 类似的 副词。

    4. 常用 助词 前 不留 空格, 比如:“……的”、“……了”。 目前 只 处理了“的”和“了”, 后续 版本 将 逐渐 完善, 不 排除 提供 界面 由 用户 自定义 和 添加 类似的 助词。

    5. 支持 用户词典。 用户 可以 添加 新词汇, 不断 扩大 用户词典, 使 分 词 效果 不断提高 和 适应 专业 领域。

        以上 实际上 也 构成了 空格断词 文本的 格式 规范。 当然 这 还 只是 作者 个人 之见 所定的 临时 规范, 最终格式 有待 实践 探索, 形成 共识 之后 由 权威机构 发布 定型。

        下载: 文本分词转换器 1.0 版

        使用方法示意图(动画):

        


    此贴已经被作者于 2012/11/2 22:24:56 编辑过

    回帖人: | 只看此人 | 不看此人 | 2012/11/2 22:30:50    跟帖回复:
       第 3
        空格断词输入法

        版本1.1

        2012年10月31日 正式发布于 赛博马工作室

        为了方便 输入 空格, 本人 利用 谷歌输入法的 API 开发了 一款 空格断词 输入法。

        特点:

    1. 空格前置。 即 每一次 选择(包括 在 候选区中的 任何一次 选择) 自动 在 所选 字、 词、 短语 前面 插入一个 空格。 所以有 2, 3 如下

    2. 标点符号 前面 没有空格, 紧挨着 句尾;

    3. 每一句的 句首 空 一格;

    4. 1.1版“的” 和 “者” 前面 不会 自动 加 空格。

    5. 用 联合键“Shift+Ctrl+C” 开/关 空格断词 功能。

        使用 技巧:

    1. 尽可能 一次 输入 一个 词组, 免得 出现 不期望的 断词 格式。

    2. 用 退格键 进行删除、 改词 操作时, 最好 删除 整个 词组 并 包括 前面的 空格分割符。 即 做到 一次退尽, 重新 输入 正确的 词汇。 这样 可以 避免 出现 剩余的 空格。

        下载:

        (全角)空格断词输入法1.1版

        (半角)空格断词输入法1.1版

        安装方法:

    1. 如果 没有 安装 谷歌输入法, 则 须 首先 上 谷歌网站 下载、安装 谷歌输入法;

    2. 安装 空格断词 输入法:打开谷歌拼音输入法选项设置窗口,在"扩展"标签中,点击"安装扩展包"按钮,选择保存在计算机内的WordSpace.lua(也可以从Windows资源管理器,右键单击WordSpace.lua文件,选择“安装到谷歌拼音输入法”)。 参见 如下 示意图:

        

        

        

        

        

    回帖人:
    离幻  
    | 只看此人 | 不看此人 | 2012/11/2 22:34:08    跟帖回复:
       第 4
    反对,小说要是你这么空格的,根本看不下去
    和乱码差不多
    回帖人: | 只看此人 | 不看此人 | 2012/11/2 22:40:05    引用回复:
       第 5
    转至第4楼第 4 楼 离幻 2012/11/2 22:34:08  的原帖:反对,小说要是你这么空格的,根本看不下去
    和乱码差不多


    存在反对意见 可以理解。 如果 大多数人反对, 那 我就偃旗息鼓, 呵呵。
    回帖人: | 只看此人 | 不看此人 | 2012/11/2 23:16:06    跟帖回复:
    6
    嗯, 断到什么程度的确 有 讲究, 至少在开始阶段 是 如此。 以后 争取 搞 几篇 不同风格的范文 贴上来, 让大家一起 评判、 定夺。
    回帖人: | 只看此人 | 不看此人 | 2012/11/2 23:39:26    跟帖回复:
    7
    代表大会的公报 应该是 非常规范的文本 吧, 很好的范文材料。 就 等 它 了,呵呵。
    回帖人: | 只看此人 | 不看此人 | 2012/11/3 12:07:09    跟帖回复:
    8
    本人 决定 向有关机构 或 报刊杂志 投稿。 只是 觉得 倡议书行文 还是 不太给力, 希望 支持这项倡议的网友们 给出 一些宝贵意见, 谢谢。
    回帖人: | 只看此人 | 不看此人 | 2012/11/3 12:14:13    跟帖回复:
    9
    如果 谁的建议 被采纳 进 新的倡议书 中, 他/她 将作为 倡议书的联名签署者。
    回帖人: | 只看此人 | 不看此人 | 2012/11/3 12:20:32   
    10
    请楼主 搞 几篇 不同风格的 范文 贴上来 见识见识
    回帖人: | 只看此人 | 不看此人 | 2012/11/3 12:29:14    跟帖回复:
    11
    关键是 要找到一篇 比较正规、 典范、 可读性强的文章, 这样做才有意义。 否则, 文章本身没有可读性的话,  对任何一种格式 都是 糟蹋, 呵呵。
    回帖人: | 只看此人 | 不看此人 | 2012/11/3 12:30:43    跟帖回复:
    12
    谁 推荐 一篇 也行啊。
    回帖人: | 只看此人 | 不看此人 | 2012/11/3 12:37:06    跟帖回复:
    13
    支持!
    推行起来不会太难。
    一,英文教育在中国很普及,英文是空格断词的,对中国人自然会产生很大影响。
    二,电脑时代,打空格很方便,接受比较容易。

    最重要的还是规则制定,需要反复模拟测试,做到以最少的空格,达到最佳的效果。
    回帖人: | 只看此人 | 不看此人 | 2012/11/3 12:39:39    跟帖回复:
    14
    不要随时改规则,而要一开始就有一个比较完善的规则,做到一炮打响,以后只是细节完善,规则不要老是改来改去或者各行其是。
    回帖人: | 只看此人 | 不看此人 | 2012/11/3 12:59:23    跟帖回复:
    15
    谢谢 天佑吴华 的 支持和建议。

    中文使用空格 确实是 水到渠成的事, 每个人 都可以 亲自尝试一下, 每个人 都可以 亲自实践一下, 试一试 究竟 如何使用空格 才能使 文章的阅读效率最高。
    16563 次点击,106 个回复  1 2 3 4 5 6 7 8
    跳转论坛至:
    快速回复:[原创]空格断词倡议(2012.11.2 修订版)
    本站声明:本站BBS互动社区的文章由网友自行帖上,文责自负,对于网友的贴文本站均未主动予以提供、组织或修改;本站对网友所发布未经确证的商业宣传信息、广告信息、要约、要约邀请、承诺以及其他文字表述的真实性、准确性、合法性等不作任何担保和确认。因此本站对于网友发布的信息内容不承担任何责任,网友间的任何交易行为与本站无涉。任何网络媒体或传统媒体如需刊用转帖转载,必须注明来源及其原创作者。特此声明!

    【管理员特别提醒】 发布信息时请注意首先阅读 ( 琼B2-20060022 ):
    1.全国人大常委会关于维护互联网安全的决定2.凯迪网络BBS互动区用户注册及管理条例。谢谢!
    • 广告