晶片製造商 NVIDIA 最近推出了一種名為 Foundational Generative Audio Transformer Opus 1 或 Fugatto 的實驗性生成式 AI 模型,宣稱其為「聲音的瑞士軍刀」。這一模型能夠根據文本提示生成或修改音訊,包括音樂、語音和各種聲音檔案。由全球的 AI研究團隊設計,Fugatto 強調了其工作是多口音和多語言的功能。
研究人員之一、NVIDIA 應用音訊研究經理 Rafael Valle 表示,希望創建一個能夠像人類一樣理解和生成聲音的模型。該公司列舉了一些 Fugatto 的潛在應用場景,音樂製作人可以利用這項技術快速生成歌曲創意的工作原型,並根據不同的風格、聲音和樂器進行編輯。
此外,Fugatto 還可用於生成語言學習工具的材料,幫助學習者練習選擇的聲音。視頻遊戲開發者則可以使用它創建預錄音資產的變體,以適應玩家的選擇和操作。研究顯示,該模型可以通過微調來完成預訓練任務以外的工作,甚至能生成特定情境下的聲音,如帶有特定口音的憤怒語音,或在雷雨中鳥兒唱歌的聲音。Fugatto 還能生成隨時間變化的聲音效果,例如暴雨移動時的衝擊聲。
雖然 NVIDIA 尚未透露是否會向公眾開放 Fugatto 的訪問權限,但這一模型並不是唯一能從文本提示生成聲音的 AI 技術。Meta 先前推出了開源 AI 工具包,而谷歌則擁有名為 MusicLM 的文本轉音樂 AI,並在其 AI Test Kitchen 平台上提供訪問。這些技術的發展表明,生成式 AI 在音頻創作和修改領域的潛力正在不斷擴大。
文字:編輯部
~~
HKGoodJobs 正在提供全備的招聘服務(包括獵頭服務),
若你是求職者,
請按 Register 登記成為會員並填妥你的個人履歷,
我們將有專人為你配對工作。
若你是僱主,
請致電 31884978、WhatsApp 63550329 或電郵至 cs@cooljobz.com 與我們聯絡。
熱門文章:
【管理哲學】利用 AI 人力資源管理(HRM)系統 協助飲食業及零售業工作排班的變革
【創科新思維】META Messenger加入 AI 背景功能 選擇添加人工智能生成的背景資
-