-
多模态大模型的音频模型Omni
发布时间:2025-06-01
Omni模型是利用neural audio codec,主要是对音频进行编码以实现音频合成。文本和声波会先分别进入embedding和adapter进行编码,再通过Omni模型进行合成和预测音频的token,最后通过扩散模型进行训练,量化再用解码器合成音频。
搜索
发布时间:2025-06-01
Omni模型是利用neural audio codec,主要是对音频进行编码以实现音频合成。文本和声波会先分别进入embedding和adapter进行编码,再通过Omni模型进行合成和预测音频的token,最后通过扩散模型进行训练,量化再用解码器合成音频。
2025-06-01
2025-06-01
2025-06-01
2025-06-01
2019-01-21
2019-01-21
2019-01-21
2019-01-10
2019-01-10
2019-01-10