Home

gentlesnow

14 Aug 2019

【NLP基础任务】 6 文本分类

一个文本分类系统由四个部分组成:

  1. 文本特征提取
  2. 降维
  3. 分类器
  4. 评估

特征提取

在特征提取部分,分为

  1. 文本预处理
  2. 词嵌入(文本表示)
  3. 词权重

在预处理部分,涉及

  1. 文本的分词、
  2. 去除停止词、
  3. 调整大小写(英文文本)、
  4. 处理口语和缩写、
  5. 去除噪音(标点和特殊符号)、
  6. 拼写纠正、
  7. 词干化、
  8. 词性还原。

降维

  1. PCA
  2. LDA

分类器

  1. Rocchio classification
  2. Boosting and Bagging
  3. Naive Bayes
  4. KNN
  5. SVM
  6. DT
  7. Random Forest
  8. CRF
  9. Deep Learning
  10. DNN
  11. RNN GRU LSTM
  12. CNN
  13. Hierarchical Attention Network
  14. RCNN
  15. RMDL

评估

  1. F1 Score
  2. MCC
  3. ROC
  4. AUC

参考资料

  1. Text Classification Algorithms: A Survey

Til next time,
gentlesnow at 15:25

scribble