提供1000+款AI效率工具丨AIEVA.CN丨歡迎訪問
AI奇點網(wǎng)-AI工具特刊丨6月19日
谷歌發(fā)布新一代AI視頻自動配音工具,AI視頻開啟「有聲時代」!
6月17日,谷歌人工智能團隊DeepMind發(fā)布了一個名為V2A(Video-to-Audio)的AI架構系統(tǒng),顧名思義即“視頻轉音頻”,能根據(jù)畫面內容或者手動輸入的提示詞直接為視頻配音。
該模型最大的功能在于,可為任何視頻自動創(chuàng)建合適的音軌BGM,在實踐中取得了十分有效的進展,可以大大降低視頻配音的制作成本。
當前Sora、Pika、可靈以及Runway等視頻模型已經(jīng)能輸出逼真的短片,但它們均輸出的是默片。
谷歌V2A系統(tǒng)的特點,便是V2A能依靠自身的多模態(tài)視覺能力理解視頻當中的信息。V2A能看懂畫面,知道畫面里正在發(fā)生什么,應該出現(xiàn)什么聲音。
舉個例子,比如輸入一則主題為「在黑暗中行走」的無聲視頻,添加“電影、恐怖片、音樂、緊張、混凝土上的腳步聲”等文本提示后,AI模型就能根據(jù)提示詞生成恐怖片風格的背景音效,十分逼真。
00:00 / 00:12
腳步聲基本吻合人物走動的節(jié)奏,隨著畫面的切換,腳步聲也隨之消失,毛骨悚然的緊張感拉滿。
為了能夠貼近Sora熱點,谷歌V2A的開發(fā)團隊使用了不少Sora生成的視頻片段作為輸入范例。
00:00 / 00:08
比如上邊這段Sora生成的水母漂蕩影像,營造出了負壓十足的深海水壓感。
下方這則短片也是Sora的樣片,經(jīng)由V2A生成的音樂配樂后的視頻頗有西部大片的感覺。