gentlesnow

06 Mar 2019

【PyTorch】 001 中文文本预处理

处理流程

sequence -> tokenization -> vocab -> numicalize/indexify -> embedding

读取数据
拆分数据为词组
创建映射关系（词典）
将文本转化为整数数列（词向量）
根据模型所需加载数据
填充文本是的序列相同，从而可以批处理它们

参考资料

A Comprehensive Introduction to Torchtext (Practical Torchtext part 1)

Til next time,
gentlesnow at 15:48

scribble

‹ ›