现在大模型技术的核心:next token prediction

大模型技术最重要的贡献就是提供了一种从“数据”“知识”的提取方法,其重要特点就是“不挑食”,有更好的泛化能力。而Transformer是唯一一个能够无脑堆叠就能够达到很好效果的算法框架。

 衡量大模型能力的标准:知识密度;类似于“摩尔定律”的“知识密度定律”:每8个月大模型的知识密度就会翻倍。   任何信息都可以被转化为token,大模型处理的是token,而非单纯的语言。