1、2023年在大模型出来后，文本方面数据需求具体有什么...-海天瑞声互动平台-特特股

网友提问：1、2023年在大模型出来后，文本方面数据需求具体有什么变化？

2024-03-01 00:00:00

海天瑞声 (688787): 回答：通用大语言模型初始训练所需的大部分文本，通常来自客户自身多年积累的用户数据及部分网络爬取数据，但由于自身数据/网络爬取数据带来的领域单一、场景受限、客户不具备数据加工能力等问题，导致数据质量不高，训练效果不理想。为提升数据质量，满足大模型训练的持续发展需求，下游客户倾向于向外部第三方专业数据服务商采购数据。同时，当大模型完成初训，正式向公众上线后，各大模型厂商开始追求其大模型产品的基础性能、效果、安全性，一旦出现答非所问、逻辑错误、意识形态错误等问题，对大模型厂商的品牌效应、技术能力、行业口碑会造成很大的影响和冲击，上述因素也催生了大模型客户外采数据需求，释放出大量有关强化学习的文本标注需求。此外，在大模型完成通用能力训练后，开始向更多垂向场景渗透时，也将带来海量垂向领域的文本数据需求。