04 Jun 2019
【自然语言处理综论】 001 导论
本书分为四个部分:
- 词汇的计算机处理
- 与词汇的计算机处理有关的语音学、音系学、形态学的基本概念
- 语音和词汇计算机处理重的各种算法(有限自动机、有限转录机、加权转录机、N元模型、隐马尔可夫模型)
- 句法的计算机处理
- 英语的词类处理和结构处理的算法(HMM的词性标注、基于转换的学习、CYK分析算法、Earley分析算法、合一与类型结构、词汇化剖析和概率剖析)
- 诸如Chomsky层级分析和抽吸引力等分析工具
- 语义的计算机处理
- 一阶谓词演算以及语用的各种表示方法
- 组合语义分析的各种方法、信息抽取、言语理解和机器翻译
- 语用的计算机处理
- 所指判定、话语的结构和连贯性、口语对话的现象、对话和言语行为模式、对话管理以及机器翻译和自然语言生成中的各种处理方法
导论
在复杂的语言行为中需要的语言知识:
- 语音学和音系学,研究语言的语音
- 形态学,研究词的有意义的组合
- 句法学,研究词与词之间的结构关系
- 语义学,研究意义
- 语用学,研究如何用语言来达成一定的目的
- 话语学,研究大于话段的语言单位
语音和语言计算机处理的绝大多数或者全部研究都可以看成是在某个层面上的消解歧义。
需要用的知识包括数量有限的形式模型和理论:
- 状态机 形式模型(状态、状态之间的转移、输入表示)
- 确定的有限状态自动机
- 非确定的有限状态自动机
- 有限状态转录机
- 加权自动机
- 马尔可夫模型
- 隐马尔可夫模型
- 形式规则系统
- 正则语法
- 正则关系
- 上下文无关语法
- 特征增益语法
- 这些文法相应的概率文法变体
- 逻辑
- 一阶逻辑 谓词演算
- 特征结构
- 语义网络
- 概念依存
- 概率论 重要应用是解决歧义问题
- 其他知识学习工具
- 算法
- 状态空间搜索算法
- 动态规划算法
Til next time,
gentlesnow
at 13:19
