【NLP基础任务】 3 依存句法分析

句法分析（syntactic parsing）是自然语言处理中的关键技术之一，它是对输入的文本句子进行分析以得到句子的句法结构的处理过程。对句法结构进行分析，一方面是语言理解的自身需求，句法分析是语言理解的重要一环，另一方面也为其它自然语言处理任务提供支持。例如句法驱动的统计机器翻译需要对源语言或目标语言（或者同时两种语言）进行句法分析；语义分析通常以句法分析的输出结果作为输入以便获得更多的指示信息。

根据句法结构的表示形式不同，最常见的句法分析任务可以分为以下三种：

句法结构分析（syntactic structure parsing），又称短语结构分析（phrase structure parsing），也叫成分句法分析（constituent syntactic parsing）。作用是识别出句子中的短语结构以及短语之间的层次句法关系。
依存关系分析，又称依存句法分析（dependency syntactic parsing），简称依存分析，作用是识别句子中词汇与词汇之间的相互依存关系。
深层文法句法分析，即利用深层文法，例如词汇化树邻接文法（Lexicalized Tree Adjoining Grammar， LTAG）、词汇功能文法（Lexical Functional Grammar， LFG）、组合范畴文法（Combinatory Categorial Grammar， CCG）等，对句子进行深层的句法以及语义分析。

依存句法分析属于浅层句法分析。

依存分析的一些重要概念：

依存句法认为“谓语”中的动词是一个句子的中心，其他成分与动词直接或间接地产生联系。
依存句法理论中，“依存”指词与词之间支配与被支配的关系，这种关系不是对等的，这种关系具有方向。确切的说，处于支配地位的成分称之为支配者（governor，regent，head），而处于被支配地位的成分称之为从属者（modifier，subordinate，dependency）。
依存语法本身没有规定要对依存关系进行分类，但为了丰富依存结构传达的句法信息，在实际应用中，一般会给依存树的边加上不同的标记。
依存语法存在一个共同的基本假设：句法结构本质上包含词和词之间的依存（修饰）关系。一个依存关系连接两个词，分别是核心词（head）和依存词（dependent）。依存关系可以细分为不同的类型，表示两个词之间的具体句法关系。

依存分析方法简介：

基于规则的方法: 早期的基于依存语法的句法分析方法主要包括类似CYK的动态规划算法、基于约束满足的方法和确定性分析策略等。
基于统计的方法：统计自然语言处理领域也涌现出了一大批优秀的研究工作，包括生成式依存分析方法、判别式依存分析方法和确定性依存分析方法，这几类方法是数据驱动的统计依存分析中最为代表性的方法。
基于深度学习的方法：近年来，深度学习在句法分析课题上逐渐成为研究热点，主要研究工作集中在特征表示方面。传统方法的特征表示主要采用人工定义原子特征和特征组合，而深度学习则把原子特征(词、词性、类别标签)进行向量化，在利用多层神经元网络提取特征。

依存分析器的性能评价：

通常使用的指标包括无标记依存正确率（unlabeled attachment score，UAS）、带标记依存正确率（labeled attachment score， LAS）、依存正确率（dependency accuracy，DA）、根正确率（root accuracy，RA）、完全匹配率（complete match，CM）等。这些指标的具体意思如下：

无标记依存正确率（UAS）：测试集中找到其正确支配词的词（包括没有标注支配词的根结点）所占总词数的百分比。
带标记依存正确率（LAS）：测试集中找到其正确支配词的词，并且依存关系类型也标注正确的词（包括没有标注支配词的根结点）占总词数的百分比。
依存正确率（DA）：测试集中找到正确支配词非根结点词占所有非根结点词总数的百分比。
根正确率（RA）：有二种定义，一种是测试集中正确根结点的个数与句子个数的百分比。另一种是指测试集中找到正确根结点的句子数所占句子总数的百分比。
完全匹配率（CM）：测试集中无标记依存结构完全正确的句子占句子总数的百分比。

依存分析任务数据集：

Penn Treebank：Penn Treebank是一个项目的名称，项目目的是对语料进行标注，标注内容包括词性标注以及句法分析。
SemEval-2016 Task 9中文语义依存图数据：http://ir.hit.edu.cn/2461.html 下载地址：https://github.com/HIT-SCIR/SemEval-2016
CoNLL经常开放句法分析的学术评测。比如2018年的通用句法分析评测任务：http://universaldependencies.org/conll18/ 2009年多语言多语言的句法依存和语义角色联合评测任务：http://ufal.mff.cuni.cz/conll2009-st/ 2008年英语的依存句法-语义角色联合评测任务：https://www.clips.uantwerpen.be/conll2008/ 2007年多语言依存分析评测：https://www.clips.uantwerpen.be/conll2007/

依存分析的工具：

StanfordCoreNLP：斯坦福的，提供依存句法分析功能。
Github地址：https://github.com/Lynten/stanford-corenlp
官网：https://stanfordnlp.github.io/CoreNLP/
Hanlp：HanLP是一系列模型与算法组成的NLP工具包。提供了中文依存句法分析功能。
Github地址：https://github.com/hankcs/pyhanlp
官网：http://hanlp.linrunsoft.com/
SpaCy：工业级的自然语言处理工具，遗憾的是不支持中文。
Gihub地址：https://github.com/explosion/spaCy 官网：https://spacy.io/
FudanNLP：复旦大学自然语言处理实验室开发的中文自然语言处理工具包，包含信息检索：文本分类、新闻聚类；中文处理：中文分词、词性标注、实体名识别、关键词抽取、依存句法分析、时间短语识别；结构化学习：在线学习、层次分类、聚类。Github地址：https://github.com/FudanNLP/fnlp

在深度学习之前，依存句法分析就分为基于转移的方法和基于图的方法。近几年，分别出现了针对这两种不同方法的神经网络模型。

先来看下基于转移的方法，通过 shift-reduce 两个基本的动作来将序列转换为树结构。首先用一个 buffer 来存储所有未处理的输入句子，并用一个栈来存储当前的分析状态。动作可以分为：1）shift，即将 buffer 中的一个词移到栈中；2）left_arc(x)，即栈顶两个词 a,b 为 a<-b 的依赖关系，关系种类为 x；3）right_arc(x)，即栈顶两个词 a,b 为 a->b 的依赖关系，关系种类为 x。后两种动作为 reduce 动作。

目前基于转移的方法的最好模型是 Stack LSTM，通过三个 LSTM 来分别建模栈状态、待输入序列和动作序列。其中因为栈需要入栈和出栈，因此作者提出了一个 Stack LSTM 来建模栈状态。

虽然基于 Stack LSTM 取得了非常好的效果，但是在目前的依存句法分析中，最流行的方法是基于图的方法经典的方法是 Biaffine 模型。直接用神经网络来预测每两个词之间存在依存关系的概率，这样我们就得到一个全连接图，图上每个边代表了节点 a 指向节点 b 的概率。然后使用MST等方法来来将图转换为一棵树。

Biaffine 模型其实和我们目前全连接自注意力模型非常类似。 Biaffine 模型十分简单，并且容易理解，并且在很多数据集上都取得了目前最好的结果。

除模型外，目前依存句法分析主要关注于多语言的依存通用依存分析。目前一个数据集是 universal dependenies，其中有很多问题值得研究，比如多任务学习、迁移学习、通用语言表示等。

参考资料