网友提问 :1、2023年在大模型出来后,文本方面数据需求具体有什么变化?

2024-03-01 00:00:00

海天瑞声 (688787): 回答:通用大语言模型初始训练所需的大部分文本,通常来自客户自身多年积累的用户数据及部分网络爬取数据,但由于自身数据/网络爬取数据带来的领域单一、场景受限、客户不具备数据加工能力等问题,导致数据质量不高,训练效果不理想。为提升数据质量,满足大模型训练的持续发展需求,下游客户倾向于向外部第三方专业数据服务商采购数据。同时,当大模型完成初训,正式向公众上线后,各大模型厂商开始追求其大模型产品的基础性能、效果、安全性,一旦出现答非所问、逻辑错误、意识形态错误等问题,对大模型厂商的品牌效应、技术能力、行业口碑会造成很大的影响和冲击,上述因素也催生了大模型客户外采数据需求,释放出大量有关强化学习的文本标注需求。此外,在大模型完成通用能力训练后,开始向更多垂向场景渗透时,也将带来海量垂向领域的文本数据需求。

2024-03-01 00:00:00

热门互动

海天瑞声股票

海天瑞声
法定名称:
北京海天瑞声科技股份有限公司
公司简介:
公司前身为北京海天瑞声科技有限公司,成立于2005年5月11日。
经营范围:
AI训练数据的研发设计、生产及销售业务。
注册地址
北京市海淀区成府路28号4-801
办公地址
北京市海淀区成府路28号4-801

热搜牛散

热门股票

Copyright © 2016 特特股 tetegu.Com All Rights Reserved