06 Mar 2019
【PyTorch】 001 中文文本预处理
处理流程
sequence -> tokenization -> vocab -> numicalize/indexify -> embedding
- 读取数据
- 拆分数据为词组
- 创建映射关系(词典)
- 将文本转化为整数数列(词向量)
- 根据模型所需加载数据
- 填充文本是的序列相同,从而可以批处理它们
参考资料
Til next time,
gentlesnow
at 15:48

gentlesnow