理解:Transformer架构似乎是从一个更加广泛的任务上学习然后再精确到特定的任务上,这似乎与人类渐进式的学习方式不同,目前尚不清楚这一差异会导致什么缺点(或者说具有什么优点)

带有自注意力循环神经网络架构