Song Generation用 SongGeneration AI 颠覆音乐创作

双轨生成技术

SongGeneration AI 将人声与伴奏分开编码，实现专业级混音。双轨 token 技术确保高保真音频输出，适合音乐制作。

支持 10+ 种音乐风格，从流行、摇滚到中国传统与爵士，通过 AI 精准生成各种类型的歌曲。

在几分钟内将结构化歌词转换为完整歌曲。SongGeneration AI 精准处理主歌、副歌和桥段等结构。

SongGeneration AI 可匹配任意参考音频风格。提供 10 秒样本即可指导乐器、人声和节奏的生成方向。

SongGeneration AI 是一套基于语言模型的高级框架，结合 LeLM 和音乐编码技术。系统通过混合 token（人声+伴奏）与双轨 token（人声/伴奏分离）并行建模生成音乐。从歌词输入、经过专有 token 化处理，最终输出高保真音频内容。

SongGeneration AI 具备多偏好对齐技术和双轨 token 系统，区别于普通生成器。它能生成录音室级别的作品，同时支持人声与伴奏的分离。系统基于 Million Song Dataset 训练，在音质与音乐连贯性方面优于开源模型，媲美商业方案。

建议使用段落标签（如 [verse]、[chorus]、[bridge]）来结构化歌词；段落间用分号分隔，每行结尾使用句号。你还可以添加如 [intro-short]、[outro-medium] 等纯音乐段落。系统将识别结构并自动生成带有合理转场与发展逻辑的作品。

可以。你可以指定性别（男/女）、音色（暗/亮/柔和）、情绪（悲伤/充满活力）等参数。还支持通过 10 秒音频样本进行人声音色迁移，实现更精准的风格模拟。

SongGeneration AI 输出专业标准的高保真 WAV 文件。每首作品包含混合音轨（人声+伴奏）与分轨音频（人声与伴奏分离），支持导入音频工作站（DAW）进行后期制作。

使用标准 GPU 的情况下，3 分钟长度的歌曲生成时间通常在 10 分钟以内。具体时长取决于歌曲复杂度。若需加速生成，可选择低内存优化模型。生成流程包括歌词解析、token 生成与音频重建，整体效率高。

支持超过 12 种类型，包括流行、R&B、摇滚、爵士、金属、中国风、京剧等。你可以在描述中指定风格，或上传参考音频。系统会自动分析节奏、配器、和声等特征，输出真实风格的 AI 音乐。

本地运行需要 Python 3.8+、CUDA 11.8+，以及 30GB 以上显存的 GPU。也提供支持低显存设备的轻量版本。云端使用则无需本地配置，同时支持 Docker 部署与 Windows 环境。

可以。根据 LICENSE 协议，SongGeneration AI 可用于商业用途。模型代码与权重已开源，可集成至商业音乐制作流程。建议在用于盈利场景前详细阅读许可协议，未来还将进一步强化商用能力。

SongGeneration AI 通过混合 token 技术捕捉人声与伴奏之间的协同关系，同时利用双轨 token 保留可编辑性。该双重机制可在保证混音自然感的同时，提供更大后期操作灵活度，是 AI 音乐生成的一大突破。