网友提问 :4、从大模型解码层结构来看,Yan 架构与 Attention 机制模型区别如何?
2024-03-15 00:00:00
岩山科技 (002195): 回答:图 1 基于多头 Attention 机制的 Transformer 模型结构图 2 Yan 架构的大模型解码层结构图 1 为基于多头 Attention 机制的 Transformer 大模型结构,标准的Attention 机制的计算复杂度为 O(n^2*d),其复杂度随序列长度呈 2 次方增长。这也就意味着,当输入序列长度增加时,计算成本和显存需求会快速增长。从图 2 的 Yan 架构大模型解码层结构可以看到,Yan 架构没有基于Attention 机制,也没有基于 RNN(指 Recurrent Neural Network,循环神经网络)等序列模型,而是通过完全自研的记忆算子及特征关联函数,将计算复杂度从标准 Attention 机制的 O(n^2*d)降低为 O(n*d)(线性复杂度),从而提高了 Yan 架构模型的训练效率和收敛速度。因此,Yan 架构模型具有训练速度快、推理成本低、记忆能力强等优势。
2024-03-15 00:00:00