多模态大模型的音频模型Omni - 前瞻产业研究院

登录/注册购买服务

数据图表行业分析研究报告免费报告产业周报企业数据大屏产业链产业热力图

搜索

多模态大模型的音频模型Omni

发布时间：2025-06-01

Omni模型是利用neural audio codec，主要是对音频进行编码以实现音频合成。文本和声波会先分别进入embedding和adapter进行编码，再通过Omni模型进行合成和预测音频的token，最后通过扩散模型进行训练，量化再用解码器合成音频。

下载原图

相关报告：《2025-2030年全球及中国多模态大模型行业发展前景与投资战略规划分析报告》

相关图表推荐