董秘您好！请介绍一下公司子公司的Yan模型1.1在训练效率...-岩山科技互动平台-特特股

网友提问：董秘您好！请介绍一下公司子公司的Yan模型1.1在训练效率、推理、记忆能力、算力消耗、显存占用及成本方面的情况如何? 正在研究的Yan1.2具体有哪些枝术特点？目前研究的进度如何？预计何时能发布？谢谢啦！

2024-02-23 16:35:19

岩山科技 (002195): 回答：您好，感谢对公司的关注。岩芯数智于2024年1月发布了Yan 1.0模型，计算复杂度从标准Attention机制的O（n^2∙d）（其中n表示序列长度、d表示特征维度，^2指平方）降低为O（n∙d）（线性复杂度），从而提高模型的训练效率和收敛速度，因此Yan 1.0模型产生的资源消耗更低，更加经济、更加低碳。我们对相同参数量级的Yan 1.0模型和Transformer（对照实验中采用的Transformer是基于HuggingFace LLaMA 2的标准结构，同时开启了flash-attn的支持）架构模型分别用1,000万条中英平行语料，基于同样软硬件环境的NVIDIA A800服务器训练以及同样的迭代次数下进行了对照试验：（1）训练效率方面，在上述对照实验环境下Yan 1.0模型的损失值要低于Transformer架构的LLaMA 2模型。在训练集上，训练数据收敛到相同的loss（loss=3.0）时，Yan 1.0模型仅需要1.5小时，而LLaMA 2模型却花费10.5小时，因此Yan 1.0模型的训练效率更高。（2）推理准确率方面，在上述对照实验环境下Yan 1.0模型比LLaMA 2模型在训练集上的预测准确率高出17%、在验证集上的预测准确率高出13%。（3）记忆能力方面，古诗是通过简短的字和词语表达丰富语境的一种体裁，token之间的困惑度也高于现代文，这恰好可用于评测模型的记忆能力。在对照实验中分别用数十万条古诗数据进行续写训练，与LLaMA 2模型相比，Yan 1.0能够更快的达到更好的收敛，以及更高的准确率。（4）显存占用方面，基于同样的参数量级在单张NVIDIA RTX 4090 24G显卡上，当输出token的长度超出2,600时，LLaMA 2模型会出现显存不足，进而无法完成推理；Yan 1.0模型的显存使用始终稳定在14G左右，可以进行正常推理。Yan 1.0模型的显存占用及成本比LLaMA 2模型更低。岩芯数智团队目前正在研发Yan 2.0模型，Yan 2.0模型将会融合文字、音频、视频等多模态，以应用于更广泛的业务。Yan 2.0模型预计将于2024年下半年推出，具体推出时间请以后续岩芯数智的发布为准。公司提醒投资者警惕市场热点炒作，理性投资并注意投资风险。谢谢。

2024-03-10 13:37:57

岩山科技最新互动问答

热门互动

岩山科技股票