困惑度,Perplexity,一个用于度量语言模型生成的语言质量的标量指标;本质上是完全随机分布与模型表示的条件分布的交叉熵

从信息论的角度来说,一个更好的语言模型应该能让我们更准确地预测下一个词元;换言之,它应该允许我们在压缩序列时花费更少的比特。

由于完全随机分布理论上存储的比特数最少,所以我们通过 n 个词元的完全随机分布和我们模型对应的条件概率分布之间的交叉熵来衡量模型相较于完全随机分布需要的比特数:

而更进一步,困惑度就是上述交叉熵的指数: