《2018自然语言处理研究报告》整理(附报告)

2018自然语言处理研究报告整理

这篇文章是阅读AMiner《2018自然语言处理研究报告》前几篇内容整理所得。

一. 自然语言处理概述

自然语言处理就是要计算机理解自然语言,计算机要理解自然语言文本的意义,最后能以自然文本形式来表达意图。处理过程主要是理解、转化、生成。

自然语言的理解和分析是一个层次化的过程,许多语言学家把这一过程分为五个层次, 可以更好地体现语言本身的构成,五个层次分别是

语音分析、词法分析、句法分析、语义分析和语用分析。

自然语言处理的研究可以分为基础性研究和应用性研究两部分,语音和文本是两类 研究的重点。

ACL、EMNLP、NAACL、COLING 4个会议是自然语言处理最重要的4个会议。

二. 自然语言处理发展历程

1950年“图灵测试”到70年代前,这时的自然语言处理停留在理性主义思潮阶段,以基于规则的方法为代表。

70年代后互联网高速发展,自然语言处理思潮由经验主义向理性主义过渡,基于统计的方法逐渐代替了基于规则的方 法。

从 2008 年到现在,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究。

三. 自然语言处理技术

截屏2020-01-11下午4.44.27

自然语言处理的基础研究方面,自然语言的基础技术包括词汇、短语、 句子和篇章级别的表示,分词、句法分析和语义分析以及语言认知模型和知识图谱等。

基础技术

  1. 词法分析
    主要任务是词性标注和词义标注。

  2. 句法分析
    主要任务是判断句子的句法结构和组成句子的各成分,明确它们之间的相互关系。

  3. 语义分析
    主要任务是根据句子的句法结构和句子中每个实词的词义推导出能够反映这个句子意义的形式化表示。

  4. 语用分析
    语用指人对语言的具体运用,主要任务是研究和分析语言使用者的真正用意,它与语境、语言使用者的知识涵养、言语行为、想法和意图是分不开的,是对自然语言的深层理解。情景语境和文化语境是语境分析主要涉及的方面。

  5. 篇章分析
    将研究扩展到句子的界限之外,主要任务是对段落和整篇文章进行理解和分析。

  6. 知识图谱
    表示知识,描述客观世界的概念、实体、事件等之间关系的一种表示形式。知识图谱在表现形式上与语义网络比较类似,不同的是,语义网络侧重于表示概念与概念之间的关系,而知识图谱更侧重于表述实体之间的关系。现在的知识网络被用来泛指大规模的知识库。

除此之外,自然语言的基础研究还涉及词义消歧、指代消解、命名实体识别等方面的研究。

应用技术

  1. 机器翻译
    指运用机器,通过特定的计算机程序将一种书写形式或声音形式的自然语言,翻译成另一种书写形式或声音形式的自然语言。按照媒介可以将机器翻译分为文本翻译、语音翻译、图像翻译以及视频和 VR 翻译等。

  2. 信息检索
    从相关文档集合中查找用户所需信息的过程。先将信息按一定的方式组织和存储起来,然后根据用户的需求从已经存储的文档集合当中找出相关的信息,这是广义的信息检索。信息检索包括“存”与“取”两个方面,对信息进行收集、标引、描述、组织,进行有 14 序的存放是“存”。按照某种查询机制从有序存放的信息集合(数据库)中找出用户所需信息或获取其线索的过程是“取”。搜索引擎可以看成是一种特殊且重要的信息检索系统。

  3. 情感分析
    又称意见挖掘,是指通过计算技术对文本的主客观性、观点、情绪、极性的挖掘和分析,对文本的情感倾向做出分类判断。情感分析是自然语言理解领域的重要分支,涉及统计学、语言学、心理学、人工智能等领域的理论与方法。情感分析在电商评价、互联网舆情分析、选举预测等地方发挥重要作用。

  4. 自动问答
    指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。问答系统是信息服务的一种高级形式,系统反馈给用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案,这和搜索引擎提供给用户模糊的反馈是不同的。

  5. 自动文摘
    运用计算机技术,依据用户需求从源文本中提取最重要的信息内容,进行精简、提炼和总结,最后生成一个精简版本的过程。生成的文摘具有压缩性、内容完整性和可读性。

  6. 社会计算
    也称计算社会学,是指在互联网的环境下,以现代信息技术为手段,以社会科学理论为指导,帮助人们分析社会关系,挖掘社会知识,协助社会沟通,研究社会规律,破解社会难题的学科。社会媒体是社会计算的主要工具和手段,社会网络是一种关系网络,通过个人与群体及其相互之间的关系和交互,发现它们的组织特点、行为方式等特征,进而研究人群的社会结构,以利于他们之间的进一步共享、交流与协作。

  7. 信息抽取
    主要是指从文本中抽取出特定的事实信息。与之关系密切的是信息检索,信息检索主要是要从大量的文档中找到用户所需要的文档,而信息抽取是获取用户感兴趣或所需要的事实信息,这就需要对文本有深入的理解和分析。信息检索的结果可以作为信息抽取的范围,提高效率,信息抽取用于信息检索可以提高检索质量,更好地满足用户的需求。

四. 自然语言处理机构

下面列举的是自然语言处理方向研究较好的一些机构。

工业界

国外: google、微软亚洲研究院、Facebook

国内:百度、阿里、腾讯、京东、科大讯飞

国外学术界

截屏2020-01-11下午5.09.52

从国家来看,美国是自然语言处理研究学者聚集 最多的国家,英国、德国、加拿大和意大利紧随其后;从地区来看,美国东部是自然语言处理人才的集中地,而西欧、美国西部等其他先进地区也吸引了大量自然语言处理的研究者。

国内学术界

《2018自然语言处理研究报告》整理(附报告)

全文结束