大模型技术的一些理解

现在大模型技术的核心：next token prediction

大模型技术最重要的贡献就是提供了一种从“数据”→“知识”的提取方法，其重要特点就是“不挑食”，有更好的泛化能力。而Transformer是唯一一个能够无脑堆叠就能够达到很好效果的算法框架。

衡量大模型能力的标准：知识密度；类似于“摩尔定律”的“知识密度定律”：每8个月大模型的知识密度就会翻倍。任何信息都可以被转化为token，大模型处理的是token，而非单纯的语言。

🪴Morethan's Knowledge Base