token,中文叫做词元,是文本类型数据的基本单位;常常有一个专门的函数,将文本块切割为词元,即 tokenizer ;

vocabulary,中文叫做词表,通常是一个字典,用来将字符串类型的词元映射到从0开始的数字索引中