share_log

海天瑞声(688787.SH):算法团队联合清华大学语音与音频技术实验室充分利用公司海量高质量语音数据集储备

格隆汇 ·  09/09 03:33

格隆汇9月9日丨海天瑞声(688787.SH)在投资者互动平台表示,公司是专业的人工智能训练数据服务提供商,目前正在围绕AIGC/大模型数据服务领域进行投入建设。一方面,公司持续加大大模型数据方向的研发投入,增厚大模型领域的数据储备,截至2024年6月30日,己完成并持续建设包括“大语言模型中文对话预训练数据集”、“语音大模型(声音复刻、歌曲)微调数据集”、“语音大模型(多语种)预训练及微调数据集”、“视觉大模型(图像-文本)预训练及微调数据集”、“视觉大模型(视频-文本)预训练及微调数据集”等在内的多领域大模型数据集。与此同时,为更好理解大模型技术方向,2024年上半年,公司通过前瞻性研究,探索大模型数据的规模化生产方式,全面助力公司大模型业务的扩张。公司己和清华大学联合启动多语种语音大模型研发计划,该项目将基于最新的语音大模型框架技术,自研多语种数据清洗技术,训练多个不同规模的语音大模型,有效提升多语种语音数据处理的效率和准确性。公司的算法团队联合清华大学语音与音频技术实验室充分利用公司海量高质量语音数据集储备(超过200个语种/方言,近30万小时自有知识产权的语音数据集),充分发挥各自所长,促进大模型技术在数据生产领域横屏查看的更深层次的应用。

声明:本内容仅用作提供资讯及教育之目的,不构成对任何特定投资或投资策略的推荐或认可。 更多信息
    抢沙发