预处理程序是机器学习中重要的准备工作,主要作用就是将不太适合机器学习范式处理的数据格式转化为合适的格式。

预处理遵循自底向上的构建逻辑,从最基础的处理逐步向上构建高级功能函数

文本预处理

token,中文叫做词元,是文本类型数据的基本单位;常常有一个专门的函数,将文本块切割为词元,即 tokenizer ;

vocabulary,中文叫做词表,通常是一个字典,用来将字符串类型的词元映射到从0开始的数字索引中

指向原始笔记的链接