数学应用-自然语言处理的教父 马库斯
发表者:Google 研究员,吴军
我 们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯, 艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们都出自宾夕法尼亚计算 机系米奇 ·马库斯(Mitch Marcus)名下。就像许多武侠小说中描写的,弟子都 成了各派的掌门,师傅一定了不得。的确,马库斯虽然作为第一作者发表的论文 并不多,但是从很多角度 上讲,他可以说是自然语言处理领域的教父。
马库斯教授长期当任宾夕法尼亚大学计算机系主任,直到他在几年前从 AT&T 找 到皮耶尔替代他为止。作为一个管理者,马库斯显示出在自然处理和计算机科学 方面的卓识的远见。在指导博士生时,马库斯发现语料库在自然语言处理中的重 要 性。马库斯呕心沥血,花了十几年工夫建立了一系列标准的语料库,提供给 全世界的学者使用。这套被称为 LDC 的语料库,是当今全世界自然语言处理的 所有学者都使用的工具。我们在以前的系列中讲到,当今的自然语言处理几乎都 是使用给予统计的方法。要做统计,就需要 大量有代表性的数据。利用这些数 据开发一个自然语言处理系统的过程,可以统称为训练。比如,我们要训练一个 汉语分词系统,我们需要一些已经分好词的中文句 子。当然这些句子需要有代 表性。如果想知道一个分词系统的准确性,我们也需要一些人工分好词的句子进 行测试。这些人工处理好的文字数据库,成为语料库 (corpus)。如果每个研究 室都人工建立几个语料库,不仅浪费时间精力,而且发表文章时,数据没有可比 性。因此,马库斯想到了建立一系列标准的语料库 为全世界的学者用。他利用 自己的影响力让美国自然科学基金会和 DARPA 出钱立项,联络的多所大学和研 究机构,建立的数百个标准的语料库。其中最著名的是 PennTree
Bank 的语料库。PennTree Bank 覆盖多种语言(包括中文)。每一种语言,它 有几十万到几百万字的有代表性的句子,每个句子都有的词性标注,语法分析树 等等。LDC 语料库如今已成为全世界自然语言处理科学家共用的数据库。如今, 在自然语言处理方面发表论文,几乎都要提供基于 LDC 语料库的测试结果。
马 库斯给予他的博士生研究自己感兴趣的课题的自由,这是他之所以桃李满天 下的原因。马库斯对几乎所有的自然语言处理领域有独到的见解。和许多教授让 博士生去 做他拿到基金的项目,马库斯让博士生提出自己有兴趣的课题,或者 用他已有的经费支持学生,或者为他们的项目区申请经费。马库斯高屋建瓴,能 够很快的判断一 个研究方向是否正确,省去了博士生很多 try-and-error 的时 间。因此他的学生有些很快地拿到的博士学位。
作为系主任,马库 斯在专业设置方面显示出卓识的远见。我有幸和他在同一个 校务顾问委员会任职,一起讨论计算机系的研究方向。马库斯在几年前互联网很 热门、很多大学开始互联 网研究时,看到 bioinformatics (生物信息学)的重 要性,在宾夕法利亚大学设置这个专业,并且在其他大学还没有意识到时,开始
招聘这方面的教授。马库斯还建议一些相关领域的教授,包括后 来的系主任皮 耶尔把一部分精力转到生物信息学方面。马库斯同时向他担任顾问的其他一些大 学提出同样的建议。等到网络泡沫破裂以后,很多大学的计算机系开始 向生物 信息学转向,但是发现已经很难找到这些方面好的教授了。我觉得,当今中国的 大学,最需要的就是马库斯这样卓有远见的管理者。
过几天我又要和马库斯一起开顾问委员会的会议了,不知道这次他对计算机科学 的发展有什么见解。
声明: 除非转自他站(如有侵权,请联系处理)外,本文采用 BY-NC-SA 协议进行授权 | 嗅谱网
转载请注明:转自《数学应用-自然语言处理的教父 马库斯》
本文地址:http://www.xiupu.net/archives-2814.html
关注公众号:
微信赞赏
支付宝赞赏