Home

gentlesnow

06 Mar 2019

【PyTorch】 001 中文文本预处理

处理流程

sequence -> tokenization -> vocab -> numicalize/indexify -> embedding

  1. 读取数据
  2. 拆分数据为词组
  3. 创建映射关系(词典)
  4. 将文本转化为整数数列(词向量)
  5. 根据模型所需加载数据
  6. 填充文本是的序列相同,从而可以批处理它们

参考资料

  1. A Comprehensive Introduction to Torchtext (Practical Torchtext part 1)

Til next time,
gentlesnow at 15:48

scribble