当前位置：资讯 > 正文

用文本生成音乐，Meta发布开源AI工具AudioCraft | 最前线

2023-08-03 13:14:51 东方资讯

作者 | 虞景霖

编辑 | 邓咏仪

(资料图片仅供参考)

美东时间8月2日，Meta发布了一款开源人工智能（AI）工具AudioCraft，可以根据用户给出的文本提示创作音频和音乐。

相较于AI在生成图像、视频、文本的应用，AI生成音乐领域的发展相对落后。这是由于生成高质量的音频需要对不同类型的信号、模块进行不同层级的建模，加上该领域开源的代码较少，可以说是AI生成内容中最具挑战性的领域。

本次AudioCraft以开源的形式进行发布，目的也是为了能够让“研究人员和从业人员能够使用自己的数据集训练自己的模型，减少由于训练数据的局限性带来的偏误，推动AI生成音乐或音频的发展。”

AudioCraft包括AudioGen、EnCodec（改进版）和MusicGen三个核心部件。通过MusicGen和AudioGen，AudioCraft可以将用户给出的文本指令转变为任何类型的音频或者音乐，再由EoCodec（改进版）进行优化。

AudioGen是一个AI生成音频模型。它能够扩展现有音频，或者通过文本提示生成音频，例如生成狗叫声、汽车喇叭声或者木地板上的脚步声。此外，AudioGen还能从声学角度区分不同对象的声音，对其进行分类。Meta使用公开的音效素材对该模型进行训练。

EnCodec（改进版）是一个基于神经网络的音频压缩解码器，能够帮助用户生成人工痕迹更少、更高质量的音乐，还能对音频文件进行无损压缩。

MusicGen是Meta在今年6月初推出的开源AI模型，能够根据文本提示生成音乐。Meta使用自有或经过授权的音乐对其进行训练，累计使用约40万个音频及文本素材，训练总时长超过20000小时。

MusicGen和AudioGen生成音频/音乐

尽管Meta使用了多个音频素材对模型进行训练，但Meta也承认，用于训练AudioCraft的数据集缺乏多样性，素材大多为西式音乐，且使用的文本提示语言仅限于英语。通过AudioCraft生成的音乐质量尚不足以取代专业人士制作的商用音乐。

Meta本次采取的策略类似于此前发布Llama 2大语言模型——无需商业授权即可使用。因此，AudioCraft的开源发布可能可以吸引大量用户，而不仅只是那些对文本生成音频感兴趣的用户，扩大Meta的知名度。

根据Meta的FAIR团队介绍，与早期文本生成音频的AI模型相比，AudioCraft大大简化了生成流程。用户能够使用AudioGen和MusicGen进行音频生成，甚至可以从头开始开发自己的文本生成音频模型。

Meta并不是第一家AI生成音乐的公司。此前，OpenAI曾在2020年推出AI音乐生成器Jukebox，谷歌在今年发布的音乐生成模型MusicLM，其他常见的类似模型还有Riffusion、Mousai和Noise2Music等。