4、从大模型解码层结构来看，Yan 架构与 Attention 机制...-岩山科技互动平台-特特股

网友提问：4、从大模型解码层结构来看，Yan 架构与 Attention 机制模型区别如何？

2024-03-15 00:00:00

岩山科技 (002195): 回答：图 1 基于多头 Attention 机制的 Transformer 模型结构图 2 Yan 架构的大模型解码层结构图 1 为基于多头 Attention 机制的 Transformer 大模型结构，标准的Attention 机制的计算复杂度为 O(n^2*d)，其复杂度随序列长度呈 2 次方增长。这也就意味着，当输入序列长度增加时，计算成本和显存需求会快速增长。从图 2 的 Yan 架构大模型解码层结构可以看到，Yan 架构没有基于Attention 机制，也没有基于 RNN（指 Recurrent Neural Network，循环神经网络）等序列模型，而是通过完全自研的记忆算子及特征关联函数，将计算复杂度从标准 Attention 机制的 O(n^2*d)降低为 O(n*d)（线性复杂度），从而提高了 Yan 架构模型的训练效率和收敛速度。因此，Yan 架构模型具有训练速度快、推理成本低、记忆能力强等优势。

2024-03-15 00:00:00

热门互动

岩山科技最新互动问答

热门互动

岩山科技股票