作者:Tornike Karchkhadze†**, Kuan-Lin Chen, Mojtaba Heydari, Robert Henzel, Alessandro Toso, Mehrez Souden, Joshua Atkins我們發表了 StereoFoley,這是一個能從影片生成音訊的框架,它能產生語義對齊、時間同步且空間精準的 48 kHz 立體音效。儘管近期生成式影片轉音訊模型在語義準確性和時間同步性方面表現出色,但它們大多仍受限於單聲道,或無法提供物件感知立體成像,這主要是因為缺乏專業混音且空間精準的影片轉音訊資料集。首先,我們開發並訓練了一個基礎模型,能從影片生成立體音訊,在語義準確性和同步性方面均達到最先進水準。接著,為克服資料集限制,我們引入了一個合成資料生成管線,它結合了影片分析、物件追蹤和音訊合成,並搭配動態聲像移動和基於距離的響度控制,從而實現了空間精準的物件感知音效。最後,我們利用這個合成資料集對基礎模型進行微調,產生了清晰的物件與音訊對應關係。由於目前沒有既定的評估指標,我們引入了立體物件感知測量方法,並透過人類聽覺研究進行驗證,結果顯示與感知有高度相關性。這項工作建立了第一個用於立體物件感知影片轉音訊生成的端到端框架,填補了一個關鍵空白,並在該領域樹立了新基準。 * † 加州大學聖地牙哥分校 * ** 在 Apple 工作期間完成 相關閱讀與更新。 我們介紹 ImmerseDiffusion,這是一個端到端的生成式音訊模型,能根據聲音物件的空間、時間和環境條件,產生 3D 沉浸式聲景。ImmerseDiffusion 經過訓練,能生成一階環繞聲 (FOA) 音訊,這是一種包含四個聲道的傳統空間音訊格式,可渲染為多聲道空間輸出。所提出的生成系統由一個空間… 人類可以根據不精確的自然語言描述來想像一個聲音場景。例如,很容易想像一個聲學環境,如果聽到「獅子的吼聲從我身後傳來!」這樣的短語。對於機器要達到相同的理解程度,它必須知道獅子是什麼(語義屬性),「身後」的概念是什麼(空間屬性),以及這些語言資訊如何與語義和…對齊。