04 Jun 2019
【自然语言处理综论】 003 形态学与有限状态转录机
英语形态学
形态学研究如何从比较小的意义单位(语素)构成词。
语素构成单词的方法分为两大类(可能部分的交叉):
- 屈折 把词干和一个语法语素结合起来所形成的单词一般与原来的词干属于同一个词类,还会产生一些诸如“一致关系”之类的句法功能
- 派生 把词干和一个语法语素结合起来所形成的单词一般属于不同的词类,产生的新意义经常难以精确的预测
屈折形态学
英语具有相对简单的屈折系统,只有名词、动词和部分形容词有屈折变化,可能屈折词缀的数目也很少
英语的名词只有两个屈折变化:一个词缀表示复数;一个词缀表示领属
英语的动词有三类:主要动词;情态动词;基础动词
大部分动词是规则的成为规则动词 只要知道了词干就能预见它的其他形式 这些词涵盖了动词的大多数
非规则动词是那些在屈折变化是具有或多或少的惯用句法形式的动词 英语的非规则动词一般具有5个不同的形式,最多具有8个不同的形式,最少具有3个不同的形式 在把他们分成不同的小类时,如果不考虑情态动词,英语只有250个不规则动词
派生形态学
英语的屈折比其他语言相对简单,但英语的派生却相当复杂
最普通的派生是新的名词的形成,常常是从动词或者形容词变化,称为名词化
有限状态形态剖析
把FST词表与规则相结合
与词表无关的FST:PORTER词干处理器
Til next time,
gentlesnow
at 17:30
