最近,大眾對(duì)Sora生成視頻的創(chuàng)新表現(xiàn)深感震撼,不過(guò)目前所展示的Sora生成的視頻就跟早期的電影一樣,沒(méi)有聲音元素。文字、圖片、聲音和視頻作為字信息時(shí)代的四種主要載體,它們各自承擔(dān)著不同的信息傳遞任務(wù),也互利共生,共同構(gòu)建了豐富的信息生態(tài)。
Sora生成視頻
AI音頻公司ElevenLabs公司為Sora經(jīng)典視頻完成了配音,并宣布將上線(xiàn)AI音效功能,用戶(hù)只需要輸入文字描述聲音的特征即可用AI生成配音。從完成配音的視頻來(lái)看,AI能夠生成與視頻內(nèi)容緊密匹配的聲音,環(huán)境音配合地恰到好處,用戶(hù)的視聽(tīng)體驗(yàn)更加豐富和完整,視頻的質(zhì)感也大幅提升。在視頻的結(jié)尾ElevenLabs還寫(xiě)到,以上所有的配音全部由AI生成,沒(méi)有一點(diǎn)編輯痕跡,看來(lái)AI生成電影又更近了一步。
公開(kāi)信息來(lái)看,這家成立僅兩年的AI音頻公司已經(jīng)宣布完成了8000萬(wàn)美元的B輪融資,估值超過(guò)10億美元。ElevenLabs的主打產(chǎn)品是文生語(yǔ)音工具,用戶(hù)只需提供文本,ElevenLabs即可利用AI生成高度逼真的語(yǔ)音,可應(yīng)用于視頻、游戲、有聲讀物等多個(gè)領(lǐng)域,去年3月,流媒體自動(dòng)化服務(wù)Super-Hi-Fi就攜手ElevenLabs,使用AI配音技術(shù)為虛擬DJ配音,推出了全自動(dòng)的「AI Radio」廣播服務(wù)。
AI配音技術(shù)
視頻到音頻的精準(zhǔn)映射是AI技術(shù)在多媒體領(lǐng)域的一個(gè)重要挑戰(zhàn),為了實(shí)現(xiàn)這一目標(biāo),AI系統(tǒng)需要具備物體識(shí)別、材質(zhì)理解、環(huán)境模擬、情感和語(yǔ)境理解等能力,當(dāng)音、視頻內(nèi)容無(wú)縫融合,就能為觀(guān)眾提供更加真實(shí)、沉浸式的體驗(yàn)。
Sora模型的出現(xiàn)已經(jīng)讓影視行業(yè)從業(yè)者倍感震撼,可以預(yù)見(jiàn),隨著表現(xiàn)優(yōu)越的多模態(tài)大模型的出現(xiàn),電影工業(yè)將面臨顛覆性的變革,諸多行業(yè)的工作模式也將發(fā)生改變。
首先,原本需要大量人力和時(shí)間投入的影視特效等工作,在多模態(tài)大模型的支持下,能夠以更高效的方式完成概念設(shè)計(jì)與美術(shù)設(shè)計(jì),極大地縮短了創(chuàng)作周期,降低了制作成本。在技術(shù)的不斷迭代下,多模態(tài)大模型還可以實(shí)現(xiàn)從劇本創(chuàng)作、角色設(shè)計(jì),到視頻合成、配音等環(huán)節(jié)的自動(dòng)化,大幅縮短制作周期。
其次,多模態(tài)大模型將為影視創(chuàng)作帶來(lái)更多可能性。它可以幫助創(chuàng)作者實(shí)現(xiàn)天馬行空的創(chuàng)意,將各種奇特的視覺(jué)風(fēng)格和場(chǎng)景呈現(xiàn)在觀(guān)眾面前。
此外,多模態(tài)大模型的出現(xiàn)也將對(duì)傳統(tǒng)職業(yè)產(chǎn)生影響,行業(yè)分工和職業(yè)定位可能會(huì)發(fā)生改變,例如編劇、導(dǎo)演、演員等會(huì)受到?jīng)_擊。長(zhǎng)遠(yuǎn)來(lái)看,在多模態(tài)大模型的影響下影視行業(yè)或許會(huì)催生新的工作崗位,如AI創(chuàng)意指導(dǎo)、智能影像優(yōu)化師等,并引導(dǎo)行業(yè)向更高層次的藝術(shù)和技術(shù)融合方向發(fā)展。
Sora模型的出現(xiàn),為影視行業(yè)的變革拉開(kāi)了序幕,而ElevenLabs公司為Sora視頻的配音,更是帶來(lái)了多模態(tài)的全新體驗(yàn),隨著AI技術(shù)的發(fā)展,多模態(tài)的融合也是未來(lái)的趨勢(shì)。ElevenLabs也可能會(huì)被open AI替代掉,下一次OpenAI發(fā)布新的多模態(tài)大模型時(shí),不僅會(huì)給影視行業(yè)帶來(lái)顛覆性的變革,我們看到聽(tīng)到的或許就不再是真實(shí)世界了。