网友提问 :2、大模型范式下的预训练阶段数据需求和传统的数据需求有什么区别?

2023-06-30 00:00:00

海天瑞声 (688787): 回答:大模型预训练阶段的数据需求和深度学习技术路线下的传统训练数据需求,两者在形态上基本一致,都是文本、语音和图像,但在数据规模、质量、来源等方面,预训练数据较传统训练数据会存在一定差异。例如,规模上,预训练数据的token量普遍在万亿量级,而传统模型数量则大约在10亿量级。从数据来源的角度看,由于大模型所需数据规模远超传统模型,因此其数据来源将更加丰富以满足规模化、多元化数据需求。具体来说,大模型数据来源除了来自传统的定向采集外,还将涉及版权数据、公共数据等新型海量高质量数据来源。此外,数据处理的核心技术也存在一定差异。例如,由于大模型预训练阶段的原料数据规模更大,因此大模型预训练数据更加注重数据清洗的工程化能力,在预训练阶段需要结合原料数据特点以及所涉及的主题、领域等,对海量数据完成高质量清洗,这对数据服务商的工程化数据处理能力以及过往服务经验的积累都提出了更高要求。

2023-06-30 00:00:00

海天瑞声最新互动问答

热门互动

海天瑞声股票

海天瑞声
法定名称:
北京海天瑞声科技股份有限公司
公司简介:
公司前身为北京海天瑞声科技有限公司,成立于2005年5月11日。
经营范围:
AI训练数据的研发设计、生产及销售业务。
注册地址
北京市海淀区成府路28号4-801
办公地址
北京市海淀区成府路28号4-801

热搜牛散

热门股票

Copyright © 2016 特特股 tetegu.Com All Rights Reserved