OpenAI进军音乐模型

摘要

广告商用它批量生成商业旋律与歌词，帮OpenAI把付费场景从订阅扩展到广告领域，进一步拉高8亿级用户生态的ARPU值。

Lyria、Suno、Udio等产品已验证高保真、多风格、4分钟级歌曲的实用化；算力+Transformer类架构让“AI音乐”进入可商用阶段。

谷歌Lyria锁定广告配乐，Suno ARR 1.5亿美元；国内字节Seed-Music、阿里InspireMusic、昆仑Mureka O1、腾讯SongGeneration、MiniMax Music1.5两个月内密集开源或上线，多项指标刷新SOTA。

版权与数据壁垒成下一道关——谁掌握高质量乐谱、分轨、歌词版权库，并能低成本清洗标注，谁就能在新一轮“文本→视频→音频”多模态竞赛中拿到门票。

继聊天机器人ChatGPT、AI视频模型Sora后，OpenAI又要放大招了。

据报道，OpenAI正积极开发AI音乐模型。OpenAI的工程师正在与茱莉亚音乐学院的一些学生合作，为音乐乐谱进行标注，以此作为音乐模型的训练数据。

在内部讨论中，OpenAI曾探讨利用文本和音频提示词来生成音乐的具体应用场景。例如，用户可以输入一段描述，要求AI为现有的声乐曲目添加吉他伴奏。

这种功能可以帮助用户为短视频添加配乐，使视频完全由AI生成。想象一下，用户用Sora生成一段TikTok风格的舞蹈视频，然后就通过音乐AI即时配上动感的背景音乐，再分享到ChatGPT正在开发的AI社交平台，这将大大降低内容创作的门槛。

目前，OpenAI已拥有超过8亿活跃用户，音乐模型将帮助OpenAI构建更全面的AI生态系统，将进一步提升用户黏性。

不过，音乐模型是否将与ChatGPT或Sora无缝结合，亦或是成为独立的应用还是个未知数，OpenAI的发言人拒绝对此置评。

音乐模型不仅适用于个人娱乐，还能与商业化场景结合，助力OpenAI向广告领域拓展。据悉，广告公司将可以用OpenAI的音乐模型来为广告创作歌词和旋律。

事实上，OpenAI在音乐领域的尝试早已有迹可循。2019年，OpenAI便推出了音乐生成模型MuseNet，它可以结合最多10种不同乐器的音色，生成古典、摇滚、乡村等多种不同风格、长达4分钟的乐曲，但不能进行歌唱。随后，OpenAI又在2020年发布了会“唱歌”的Jukebox模型。

但MuseNet和Jukebox均未被整合进ChatGPT和Sora中。由于技术和计算成本的限制，它们生成的音乐与人类创作的仍有较大差距。

▍全球AI音乐竞速

如今，随着算力和模型架构的进步，音乐生成技术终于迎来了实用化的可能，或将成为继文本与视频之后的新一轮AI技术竞赛焦点。

今年5月，谷歌推出了第二代音乐制作模型Lyria。谷歌特别强调，Lyria可为广告制作配乐，这与OpenAI音乐模型的潜在商业化方向高度重合。

而初创公司Suno和Udio的AI音乐生成产品已成功实现商业化。Suno作为成立仅三年的企业，其年经常性收入已达1.5亿美元，比一年前增长近四倍。

《科创板日报》注意到，中国的AI音乐模型也在迅速崛起。

去年，字节跳动豆包大模型团队推出了具备灵活控制能力的音乐生成模型家族Seed-Music。

今年初，阿里通义实验室开源了音乐生成模型InspireMusic，旨在打造一款集音乐生成、歌曲生成、音频生成能力为一体的开源AIGC工具包。

3月26日，昆仑万维发布全球首款音乐推理大模型Mureka O1，多项性能超越Suno V4、登顶SOTA。

6月16日，腾讯AI Lab开源SongGeneration音乐生成大模型，专注解决音乐AIGC中音质、音乐性与生成速度这三大共性难题。

9月12日，MiniMax上线音乐生成模型Music1.5，实现了强控制力、人声自然饱满、编曲层次丰富、歌曲结构清晰四大新突破。