当今AI音乐的问题
当前基于AI生成音乐的方法面临令人沮丧的妥协。基于大语言模型(LLM)的模型速度较慢,结构性不足。扩散模型的连贯性较差。许多模型对时长控制有限。
令人沮丧的妥协
- 基于大型语言模型(LLMs)的模型能良好对齐歌词,但在生成音乐时非常缓慢,且往往缺乏较长音乐作品的结构流畅性。
- 扩散模型较快,但在长时间内保持音乐的一致性和结构上存在困难。
- 许多现有模型要么无法让你控制音乐的时长,要么只能生成固定长度的音乐,这对实际作曲并不理想。
现有技术常常迫使创作者在速度、音乐质量或控制之间做出选择。
ACE-Step音乐如何解决这些问题
ACE-Step音乐的构建方式独特。它智能地结合了几种强大的技术:
- 基于扩散的生成:高效合成。
- Sana的深度压缩自动编码器(DCAE):有效处理音频。
- 一种轻量级线性变换器:用于结构理解。
在训练过程中,ACE-Step音乐使用先进技术,如MERT和m-hubert进行语义对齐(REPA),使其学习和提升速度大大加快。
ACE-Step音乐的主要好处
ACE-Step音乐通过其独特设计提供先进的性能,具备速度、质量和灵活性。
极速生成
在A100 GPU上仅需20秒即可生成最多4分钟的音乐。速度是老款基于LLM模型的15倍!让你的ACE-Step音乐更快到达。
卓越的音乐品质
ACE-Step音乐实现了更好的音乐连贯性,并确保歌词与旋律、和声和节奏准确对齐。
灵活控制
与输出长度固定的模型不同,ACE-Step音乐支持灵活长度生成,非常适合实用作曲。它还保留精细的声学细节,便于高级控制。
先进的能力
支持许多高级功能,无需额外培训,如生成变体(重拍)、重新生成特定部分(重新涂色)、修改歌词(编辑)。
创新基础
其设计使其易于在上层训练专业子任务,为集成到创意工作流中的新工具铺平道路。核心ACE-Step音乐架构非常灵活。
奠定基础
我们在 ACE-Step 音乐中的目标是为整个音乐 AI 生态系统提供一个强大而灵活的基础。这种架构有助于应用程序的无缝开发。
免培训应用
- 重拍:生成歌曲变体。
- 重绘:生成歌曲的部分。
- 编辑:在生成的作品中修改歌词。
微调(使用LoRA)
- Lyric2Vocal:从歌词生成声乐。
- Text2Sample:从文本创建音乐样本和循环。
即将推出的应用程序
RapMachine, StemGen, Singing2Accompaniment。
体验ACE-Step Live
亲身体验ACE-Step强大的音乐生成能力。(演示链接即将推出!)
如何使用(未来)
- 1. 输入您的提示或歌词
- 2. 选择所需的长度和风格
- 3. 点击生成以创建您的音乐
- 4. 预览、细化并下载
可用特性(未来)
- • 灵活的长度生成
- • 支持多种类型/风格(计划中)
- • 实时预览和编辑
- • 高质量的导出选项
听ACE-Step音乐的效果
聆听ACE-Step生成的音乐示例。(样本将根据可用情况添加)
ACE-Step音乐演示即将上线!
我们正在努力准备 ACE-Step 能力的展示示例。请稍后再查看。
承认局限性
像任何尖端技术一样,ACE-Step音乐仍在不断发展。我们致力于透明度和持续改进。
- 输出可能因设置(如 "抽卡式" 结果)而不一致。
- 特定风格(如中文说唱)的表现需要改进,总体风格的遵循存在限制。
- 在重绘或扩展音乐时,某些过渡可能听起来不自然。
- 语音合成质量可能较为粗糙,缺乏细腻感。
- 我们致力于对音乐参数进行更细粒度的控制。
- 提高多语言歌词的支持和准确性。
ACE-Step音乐团队
与推动ACE-Step音乐基础模型的核心开发者和贡献者见面。
核心开发人员
冯俊敏,赵贤,王森,许盛源,郭杰
主要贡献
Sana的深度压缩自动编码器技术。网页气氛由Roocode编码。
工具和资源
来自AI音乐社区/互联网的歌词。MERT和m-hubert用于训练。
新闻与合作
随时了解ACE-Step Music的进展和合作。(链接和合作伙伴将更新)
项目博客(即将上线)
关注我们的开发进程和最新公告。
了解更多(链接未激活)
研究论文(计划中)
深入了解ACE-Step的技术细节。
了解更多(链接未激活)
社区论坛(计划中)
加入讨论,分享反馈,协作共同完成。
加入(链接失效)