网友提问 :您好,请问公司大模型相关业务目前有何新拓展
2024-12-05 16:00:00
海天瑞声 (688787): 回答:尊敬的投资者:您好,年内公司持续加大大模型数据方向的研发投入,增厚大模型领域的数据储备,已完成并持续建设包括“大语言模型中文对话预训练数据集”、“语音大模型(声音复刻、歌曲)微调数据集”、“语音大模型(多语种)预训练及微调数据集”、“视觉大模型(图像-文本)预训练及微调数据集”、“视觉大模型(视频-文本)预训练及微调数据集”等在内的多领域大模型数据集。同时,针对大模型在特定行业的应用需求,公司重点开发了医疗、金融、法律、艺术等垂直领域的标注资源,形成垂直领域专家库,为公司提供高质量行业数据服务奠定坚实基础。
与此同时,为更好理解大模型技术方向,年内,公司通过前瞻性研究,探索大模型数据的规模化生产方式,全面助力公司大模型业务的扩张。公司已和清华大学联合启动多语种语音大模型研发计划,该项目将基于最新的语音大模型框架技术,自研多语种数据清洗技术,训练多个不同规模的语音大模型,有效提升多语种语音数据处理的效率和准确性。公司的算法团队联合清华大学语音与音频技术实验室充分利用公司海量高质量语音数据集储备(超过200个语种/方言,近30万小时自有知识产权的语音数据集),充分发挥各自所长,促进大模型技术在数据生产领域的更深层次的应用。
2024-12-05 16:09:00