Song Generation用 SongGeneration AI 革新音樂創作

雙軌生成技術

SongGeneration AI 可分別編碼人聲與伴奏，實現專業混音。雙軌道 token 技術確保音質清晰、細節豐富，適用於正式音樂製作。

支援超過 10 種音樂風格，包括流行、搖滾、中式傳統、爵士等，讓你用 AI 精準創作各類型音樂。

將結構化的歌詞在數分鐘內轉換成完整歌曲。SongGeneration AI 能準確處理段落（如主歌、副歌、橋段）並進行編曲。

SongGeneration AI 可依據任意參考音訊風格進行生成。只需提供 10 秒樣本，即可導引人聲、樂器及節奏風格。

SongGeneration AI 是一套基於語言模型的先進系統，結合 LeLM 與音訊編解碼技術。它透過混合 token（結合人聲與樂器）與雙軌 token（分開處理人聲與伴奏）的並行建模，實現高品質音樂生成。從輸入歌詞開始，經過專有的 token 化處理後輸出專業水準音樂。

SongGeneration AI 的多偏好對齊技術與雙軌道 token 系統讓它脫穎而出。不同於一般生成器，它可輸出錄音室等級的成品並分離人聲與伴奏。系統訓練於 Million Song Dataset，在音質與音樂邏輯性上表現優異，超越多數開源與商業模型。

請使用像是 [verse]、[chorus]、[bridge] 這樣的段落標籤標記歌詞結構；各段以分號區隔，每行結尾加上句號。也可加入像是 [intro-short]、[outro-medium] 的器樂段落。系統會依據這些結構自動安排合適的樂曲過場與發展。

可以。你可以指定性別（男/女）、音色（暗沉/明亮/柔和）與情緒（悲傷/充滿能量），也可以提供 10 秒參考音檔進行聲線風格遷移，讓 AI 歌曲更貼近你的創作風格。

SongGeneration AI 輸出符合業界標準的高品質 WAV 檔案。每首生成歌曲都包含混音版本（人聲＋樂器）以及分軌版本（獨立人聲與伴奏），方便在數位音訊工作站（DAW）中後製與混音。

使用標準 GPU 硬體的話，一首 3 分鐘左右的歌曲大約 10 分鐘內可完成。具體時間視歌曲長度與複雜程度而定。如需更快生成，可選用低記憶體優化版本。生成流程包括：歌詞解析 → token 生成 → 音訊重建，整體流程經過最佳化。

當然支援！目前支援超過 12 種風格，包括流行、R&B、搖滾、爵士、金屬、中式風格與京劇等。你可在描述中指定風格，或上傳參考音訊。系統會分析節奏、樂器配置與和聲進行，自動生成對應風格的音樂。

在本機部署需要 Python 3.8+、CUDA 11.8+ 與 30GB 以上 VRAM 的 GPU。若硬體較輕量，可選擇低記憶體版本。雲端使用則無需特殊設備，也支援 Docker 部署與 Windows 環境安裝。

可以，根據 LICENSE 條款允許商業使用。模型權重與程式碼均為開源，可整合至商業音樂製作流程中。建議針對營利用途詳閱授權條款，未來版本也會強化商用功能。

SongGeneration 使用混合 token 技術來建模人聲與伴奏間的關係，並透過雙軌 token 維持各元素的獨立性。這種雙層處理機制可同時實現自然混音效果與靈活編輯能力，是 AI 音樂生成品質上的一大突破。