四个问题，等位前沿研究者，这是份领域的请回答

2022-08-02 15:15 来源：读者提供作者：网友发布浏览：0

核心提示大数据文摘出品作者：魏子敏、蒋宝尚今年9月份，深度学习Indaba2018峰会在南非斯泰伦博斯举办，包括谷歌大脑Jeff Dean在内的一众研究者都到场进行了分享。一位来自Insight数据分析研究中心的博士生Sebastian Ruder

由大数据文摘制作

作者:魏自民，蒋宝尚

今年9月，深度学习Indaba2018峰会在南非斯泰伦博斯举行，包括谷歌大脑(Google Brain)的杰夫·迪恩(Jeff Dean)在内的一批研究人员到场分享。来自Insight数据分析研究中心的博士生Sebastian Ruder在准备自己的分享时，就四个问题咨询了包括Yoshua Bengio在内的20+位该领域的领先研究人员。

昨天，塞巴斯蒂安·鲁德(Sebastian Ruder)在推特上发表了20多条完整的问答记录，以及他对这些回答的分享总结。我们可以一窥自然语言处理领域的最新发展。

让我们来看看这四个引发自省的大问题:

1.你认为NLP目前面临的最大的三个问题是什么？

你认为NLP目前最大的三个公开问题是什么

2.你认为近十年NLP领域影响最深远的研究是什么？

如果只能选一个，你会说过去十年NLP中最有影响力的作品是什么

3.如果有的话，是什么因素把这个领域引向了错误的方向？

如果有的话，是什么把这个领域引向了错误的方向

4.对NLP领域的硕士生有什么建议？

你会给一个正在开始他们项目的NLP研究生什么建议

来自自然语言处理行业和学术界的20多位领先研究人员应邀回答了这些问题。《大数据文摘》选取了神经网络之父、《花书》作者Yoshua Bengio和芝加哥大学副教授Kevin Gimpel的回答作为代表进行汇编。完整的问答记录可以在大数据摘要后台留言“20181212”获取。

大咖名单如下

哈尔·多梅三世、芭芭拉·普兰克、米格尔·巴列斯特罗斯、安德斯·斯加德、马纳奥·法鲁基、米克尔·阿尔特谢、塞巴斯蒂安·里德尔、伊莎贝尔·奥根斯坦、贝尔纳特·杜文哈格、李·弗雷曼、布林克·范德梅尔韦、卡伦·利维斯库、扬·布伊斯、凯文·金佩尔、克里斯蒂娜·德科克、阿尔塔·德瓦尔、迈克尔·罗斯、马莱塔·阿比萨·莫拉波、安妮·路易丝、克里斯·戴尔、约舒阿·本吉奥、费利克斯·希尔、凯文·奈特、理查德·索谢尔、乔治·达尔、德克·霍维、圭

约舒阿·本吉奥

1.你认为NLP目前面临的最大的三个问题是什么？

基础语言学习，即一起学习世界模型，以及如何在自然语言处理中使用参考模型；在深度学习的框架内整合语言理解和推理；对常识的理解，只有解决了以上两个问题，才能解决常识问题。

2.是什么因素导致了这个领域走向错误的方向？

是贪婪。

我们总是关心短期回报。我们总是试图利用我们掌握的所有数据来训练模型，然后希望模型能够智能理解并生成语言。然而，如果我们不能建立一个世界模型，并深刻理解世界是如何运作的，那么无论我们设计出多么巧妙的神经网络模型，我们都永远无法找到智能语言的秘密。所以一定要咬紧牙关，致力于用NLP解决AI，而不是孤立地理解NLP。

4.你对研究生开始NLP项目有什么建议？

广泛阅读，不限于NLP论文。看了很多机器学习、深度学习、强化学习的论文。博士学位是实现人生目标的大好机会，哪怕是朝着这个目标迈出的一小步都值得珍惜。

凯文·金佩尔

1.你认为NLP目前最大的三个问题是什么？

最大的问题和对自然语言的理解有关。甚至在生成任务中，所有的挑战都可以这样理解:计算机不明白文字对人的作用是什么。

设计的模型要像人类一样阅读和理解文本，形成文本世界的表征，包括物体、设定、目标、愿望、信念等元素。当然，文字背后还有其他人类需要了解的因素。

在设计一个理想的模型之前，所有的进步都是建立在提高模型模式匹配能力的基础上的。模式匹配对于开发和改进产品是有效的。我不认为只有模式匹配才能产生一个“理性”的机器。

2.过去十年，NLP上最有影响力的作品是什么？

“自然语言处理几乎是从无到有”。这篇论文由罗南·科洛伯特(Ronan Collobert)、杰森·韦斯顿(Jason Weston)、莱昂·博图(Leon Bottou)、迈克尔·卡伦(Michael Karlen)、科拉伊·卡武克库奥卢(Koray Kavukcuoglu)和帕维尔·库克萨(Pavel Kuksa)共同完成，并于2011年发表。简单来说，它基于Colobert和Weston在2008年的一篇论文，但它是扩展和发展的。介绍了几种常用的NLP设计方法，如利用神经网络进行NLP多任务学习，利用未标记数据进行预训练单词嵌入等。

3.是什么原因导致我们踏入自然语言处理的陷阱？

我认为是目前传统的NLP处理方法，比如传统的监督学习。其中一个假设是测试数据和训练数据服从同一个概率分布，这与现实完全不符。至少，真实测试数据和训练数据在时间上的分布是不一样的，有时甚至相差几十年！所以要致力于海外留学，时间迁移等。

传统的无监督学习和传统的有监督学习都是不现实的，所以很高兴看到NLP研究者最近开始关注混合使用。不管给它们起什么名字，半监管或者弱监管都是可以接受的，它们都是一个混合的设定。

4.你对NLP研究生现在开始做项目有什么建议？

不要害怕创新，要勇于尝试新事物。一般来说，风险越大，回报越大。如果你失败了，或者没有达到预期，你也可能在这个过程中学到很多非常有趣的东西，也非常有可能为你发表论文积累素材。

Sebastian Ruder还整理了20多名研究人员的回答，并在会议报告中给出了以下总结。

大数据文摘后台回复“20181212”获取报告全文PPT。

自然语言处理发展的里程碑

问题NLP研究领域最大的问题

在总结了25位研究者的回答后，我们得出这四个问题。

1.自然语言理解

2.资源不足情况下的NLP