网友提问 :4、数据是怎么生产的?

2023-09-04 00:00:00

海天瑞声 (688787): 回答:训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)① 设计——训练数据集结构设计在设计环节中,通过考虑算法模型的具体应用领域、应用场景以及预期实现的训练效果,反过来确定训练数据集内的数据类型、数量、比例分布等,相应确定原料数据的采集要求,为后续采集工作奠定基础。以语音识别、语音合成领域的训练数据集为例,在原料数据的采集环节,发音人(被采集对象)需要朗读公司提供的基础语料,并用指定的录音设备录制以形成原料音频数据。因此,在设计阶段,公司就需要考虑如何设计基础语料,才能使得容量有限的训练数据集能够覆盖尽可能多的自然语言现象,如覆盖更多的发音习惯、语言特点、句长分布,达到更好的音素平衡效果等,从而使得算法模型获得更好的训练结果。②采集——获取原料数据根据此前设计好的训练数据集结构及数据量目标,制定原料数据采集方案并开展原始数据采集工作。采集过程所涉及的主要考虑因素包括:A.数据量方面:需根据成品训练数据集的目标数据量,预留少量冗余。在实际采集过程中,由于可能发生少量录音不合格的损耗情况,通常会在总采集数据量中预留少量冗余,从而略大于最终要交付的数据量,以备替换偶然出现的不合格录音数据。B.数据属性方面:在采集环节中,根据客户算法模型应用的目标场景、领域等个性化需求,采集特定原料数据。以语音识别训练数据为例,在采集环节中,通常需要根据语音识别模型的语种/方言类别、目标应用场景(安静、噪音;家居、车载等),相应定义寻找符合要求的发音人,在合适的采集场景下由发音人朗读、或自然说出录制语音片段,生产原料音频数据。以语音合成训练数据为例,通常需要根据客户对拟合成的语音的风格(温柔、甜美、科技感等)、年龄(成人、儿童)、性别、语种、口音等方面的具体需求寻找发音人,并组织发音人按照前期设计完成的音素集、语料库等资料进行朗读,录制生成原料音频数据。此外,由于语音合成训练数据的录制对信噪比、底噪、录音棚混响时间等参数、指标和录音设备的要求很高,通常需要在专业级别的录音棚中完成录制工作。③加工——数据标注通过公司ADS和VDS平台,对语音、文本、图片等原料数据进行标注,使其成为结构化可被算法识别和学习的专业训练数据集。该环节中,公司通常会应用相关算法模型,通过算法完成预识别和预标注,可以显著提高数据标注效率,降低标注成本。④质检——各环节数据质量检测质检环节会渗透在整个训练数据的全生产流程,具体包括:A.在前端采集环节,公司开发的采集工具可对原始数据质量进行即时质检,不符合要求的原始数据不被计入采集数据之中;B.在中端加工环节,公司运用自动标注工具+人工校对检验的方式对数据加工情况进行检查,提升加工效率和准确度;C.在后端大规模质检环节,公司运用全自动校验技术,实现大规模训练数据集的质检需求。

2023-09-04 00:00:00

热门互动

海天瑞声股票

海天瑞声
法定名称:
北京海天瑞声科技股份有限公司
公司简介:
公司前身为北京海天瑞声科技有限公司,成立于2005年5月11日。
经营范围:
AI训练数据的研发设计、生产及销售业务。
注册地址
北京市海淀区成府路28号4-801
办公地址
北京市海淀区成府路28号4-801

热搜牛散

热门股票

Copyright © 2016 特特股 tetegu.Com All Rights Reserved