14 Aug 2019
【NLP基础任务】 6 文本分类
一个文本分类系统由四个部分组成:
- 文本特征提取
- 降维
- 分类器
- 评估
特征提取
在特征提取部分,分为
- 文本预处理
- 词嵌入(文本表示)
- 词权重
在预处理部分,涉及
- 文本的分词、
- 去除停止词、
- 调整大小写(英文文本)、
- 处理口语和缩写、
- 去除噪音(标点和特殊符号)、
- 拼写纠正、
- 词干化、
- 词性还原。
降维
- PCA
- LDA
分类器
- Rocchio classification
- Boosting and Bagging
- Naive Bayes
- KNN
- SVM
- DT
- Random Forest
- CRF
- Deep Learning
- DNN
- RNN GRU LSTM
- CNN
- Hierarchical Attention Network
- RCNN
- RMDL
评估
- F1 Score
- MCC
- ROC
- AUC
参考资料
Til next time,
gentlesnow
at 15:25
