数学应用-谈谈中文分词
发表者: 吴军, Google 研究员
谈谈中文分词
—– 统计语言模型在中文处理中的一个应用
上回我们谈到 利用统计语言模型进行语言处理 ,由于模型是建立在词的基础上 的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀 到美国与太空总署官员开会。”
分成一串词:
中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开 会。
最容易想到的,也是最简单的分词办法就是查字典。这种方法最早是由北京航天 航空大学的梁南元教授提出的。
用 “查字典” 法,其实就是我们把一个句子从左向右扫描一遍,遇到字典里有 的词就 ...












