由大数据文摘制作
作者:魏自民,蒋宝尚

今年9月,深度学习Indaba2018峰会在南非斯泰伦博斯举行,包括谷歌大脑(Google Brain)的杰夫·迪恩(Jeff Dean)在内的一批研究人员到场分享。来自Insight数据分析研究中心的博士生Sebastian Ruder在准备自己的分享时,就四个问题咨询了包括Yoshua Bengio在内的20+位该领域的领先研究人员。
昨天,塞巴斯蒂安·鲁德(Sebastian Ruder)在推特上发表了20多条完整的问答记录,以及他对这些回答的分享总结。我们可以一窥自然语言处理领域的最新发展。
让我们来看看这四个引发自省的大问题:
1.你认为NLP目前面临的最大的三个问题是什么?
你认为NLP目前最大的三个公开问题是什么
2.你认为近十年NLP领域影响最深远的研究是什么?
如果只能选一个,你会说过去十年NLP中最有影响力的作品是什么
3.如果有的话,是什么因素把这个领域引向了错误的方向?
如果有的话,是什么把这个领域引向了错误的方向
4.对NLP领域的硕士生有什么建议?
你会给一个正在开始他们项目的NLP研究生什么建议
来自自然语言处理行业和学术界的20多位领先研究人员应邀回答了这些问题。《大数据文摘》选取了神经网络之父、《花书》作者Yoshua Bengio和芝加哥大学副教授Kevin Gimpel的回答作为代表进行汇编。完整的问答记录可以在大数据摘要后台留言“20181212”获取。
大咖名单如下
哈尔·多梅三世、芭芭拉·普兰克、米格尔·巴列斯特罗斯、安德斯·斯加德、马纳奥·法鲁基、米克尔·阿尔特谢、塞巴斯蒂安·里德尔、伊莎贝尔·奥根斯坦、贝尔纳特·杜文哈格、李·弗雷曼、布林克·范德梅尔韦、卡伦·利维斯库、扬·布伊斯、凯文·金佩尔、克里斯蒂娜·德科克、阿尔塔·德瓦尔、迈克尔·罗斯、马莱塔·阿比萨·莫拉波、安妮·路易丝、克里斯·戴尔、约舒阿·本吉奥、费利克斯·希尔、凯文·奈特、理查德·索谢尔、乔治·达尔、德克·霍维、圭
约舒阿·本吉奥
1.你认为NLP目前面临的最大的三个问题是什么?
基础语言学习,即一起学习世界模型,以及如何在自然语言处理中使用参考模型;在深度学习的框架内整合语言理解和推理;对常识的理解,只有解决了以上两个问题,才能解决常识问题。
2.是什么因素导致了这个领域走向错误的方向?
是贪婪。
我们总是关心短期回报。我们总是试图利用我们掌握的所有数据来训练模型,然后希望模型能够智能理解并生成语言。然而,如果我们不能建立一个世界模型,并深刻理解世界是如何运作的,那么无论我们设计出多么巧妙的神经网络模型,我们都永远无法找到智能语言的秘密。所以一定要咬紧牙关,致力于用NLP解决AI,而不是孤立地理解NLP。
4.你对研究生开始NLP项目有什么建议?

广泛阅读,不限于NLP论文。看了很多机器学习、深度学习、强化学习的论文。博士学位是实现人生目标的大好机会,哪怕是朝着这个目标迈出的一小步都值得珍惜。
凯文·金佩尔
1.你认为NLP目前最大的三个问题是什么?
最大的问题和对自然语言的理解有关。甚至在生成任务中,所有的挑战都可以这样理解:计算机不明白文字对人的作用是什么。
设计的模型要像人类一样阅读和理解文本,形成文本世界的表征,包括物体、设定、目标、愿望、信念等元素。当然,文字背后还有其他人类需要了解的因素。
在设计一个理想的模型之前,所有的进步都是建立在提高模型模式匹配能力的基础上的。模式匹配对于开发和改进产品是有效的。我不认为只有模式匹配才能产生一个“理性”的机器。
2.过去十年,NLP上最有影响力的作品是什么?
“自然语言处理几乎是从无到有”。这篇论文由罗南·科洛伯特(Ronan Collobert)、杰森·韦斯顿(Jason Weston)、莱昂·博图(Leon Bottou)、迈克尔·卡伦(Michael Karlen)、科拉伊·卡武克库奥卢(Koray Kavukcuoglu)和帕维尔·库克萨(Pavel Kuksa)共同完成,并于2011年发表。简单来说,它基于Colobert和Weston在2008年的一篇论文,但它是扩展和发展的。介绍了几种常用的NLP设计方法,如利用神经网络进行NLP多任务学习,利用未标记数据进行预训练单词嵌入等。
3.是什么原因导致我们踏入自然语言处理的陷阱?
我认为是目前传统的NLP处理方法,比如传统的监督学习。其中一个假设是测试数据和训练数据服从同一个概率分布,这与现实完全不符。至少,真实测试数据和训练数据在时间上的分布是不一样的,有时甚至相差几十年!所以要致力于海外留学,时间迁移等。
传统的无监督学习和传统的有监督学习都是不现实的,所以很高兴看到NLP研究者最近开始关注混合使用。不管给它们起什么名字,半监管或者弱监管都是可以接受的,它们都是一个混合的设定。
4.你对NLP研究生现在开始做项目有什么建议?
不要害怕创新,要勇于尝试新事物。一般来说,风险越大,回报越大。如果你失败了,或者没有达到预期,你也可能在这个过程中学到很多非常有趣的东西,也非常有可能为你发表论文积累素材。
Sebastian Ruder还整理了20多名研究人员的回答,并在会议报告中给出了以下总结。
大数据文摘后台回复“20181212”获取报告全文PPT。
自然语言处理发展的里程碑
问题NLP研究领域最大的问题
在总结了25位研究者的回答后,我们得出这四个问题。
1.自然语言理解
2.资源不足情况下的NLP

3.大规模或多文件推理
4.数据集、问题和评估
问题2:是什么因素让这个领域走向了错误的方向?
问题3:你对NLP领域的硕士生有什么建议?
大数据文摘后台回复“20181212”即可获得20多位面试官的完整报告PPT+面试记录。


