网友提问 :董秘您好!请介绍一下公司子公司的Yan模型1.1在训练效率、推理、记忆能力、算力消耗、显存占用及成本方面的情况如何? 正在研究的Yan1.2具体有哪些枝术特点?目前研究的进度如何?预计何时能发布? 谢谢啦!

2024-02-23 16:35:19

岩山科技 (002195): 回答:您好,感谢对公司的关注。 岩芯数智于2024年1月发布了Yan 1.0模型,计算复杂度从标准Attention机制的O(n^2∙d)(其中n表示序列长度、d表示特征维度,^2指平方)降低为O(n∙d)(线性复杂度),从而提高模型的训练效率和收敛速度,因此Yan 1.0模型产生的资源消耗更低,更加经济、更加低碳。 我们对相同参数量级的Yan 1.0模型和Transformer(对照实验中采用的Transformer是基于HuggingFace LLaMA 2的标准结构,同时开启了flash-attn的支持)架构模型分别用1,000万条中英平行语料,基于同样软硬件环境的NVIDIA A800服务器训练以及同样的迭代次数下进行了对照试验: (1)训练效率方面,在上述对照实验环境下Yan 1.0模型的损失值要低于Transformer架构的LLaMA 2模型。在训练集上,训练数据收敛到相同的loss(loss=3.0)时,Yan 1.0模型仅需要1.5小时,而LLaMA 2模型却花费10.5小时,因此Yan 1.0模型的训练效率更高。 (2)推理准确率方面,在上述对照实验环境下Yan 1.0模型比LLaMA 2模型在训练集上的预测准确率高出17%、在验证集上的预测准确率高出13%。 (3)记忆能力方面,古诗是通过简短的字和词语表达丰富语境的一种体裁,token之间的困惑度也高于现代文,这恰好可用于评测模型的记忆能力。在对照实验中分别用数十万条古诗数据进行续写训练,与LLaMA 2模型相比,Yan 1.0能够更快的达到更好的收敛,以及更高的准确率。 (4)显存占用方面,基于同样的参数量级在单张NVIDIA RTX 4090 24G显卡上,当输出token的长度超出2,600时,LLaMA 2模型会出现显存不足,进而无法完成推理;Yan 1.0模型的显存使用始终稳定在14G左右,可以进行正常推理。Yan 1.0模型的显存占用及成本比LLaMA 2模型更低。 岩芯数智团队目前正在研发Yan 2.0模型,Yan 2.0模型将会融合文字、音频、视频等多模态,以应用于更广泛的业务。Yan 2.0模型预计将于2024年下半年推出,具体推出时间请以后续岩芯数智的发布为准。公司提醒投资者警惕市场热点炒作,理性投资并注意投资风险。 谢谢。

2024-03-10 13:37:57

热门互动

岩山科技股票

岩山科技
法定名称:
上海岩山科技股份有限公司
公司简介:
公司是经上海市人民政府出具沪府体改审(2001)012号批准,由原上海欧姆龙计算机有限公司整体变更设立的股份有限公司。公司于2001年7月24日取得变更后的,注册号为3100001006617。2004年8月,经交大欧姆龙2004年度第一次临时股东大会审议,交大欧姆龙变更名称为“上海交大海隆软件股份有限公司”。
经营范围:
互联网信息服务;互联网金融服务。
注册地址
中国(上海)自由贸易试验区张江路665号3层
办公地址
上海市浦东新区博霞路11号3楼

热搜牛散

热门股票

Copyright © 2016 特特股 tetegu.Com All Rights Reserved