微软研(yán)究人员(yuán)展示了(le)一种令人(rén)印象深(shēn)刻的(de)新(xīn)型文本转语音人工智能模型,名为Vall-E,它可以只听声(shēng)音几秒钟,然后模仿声音——包括情感语调和音(yīn)响效果——说出你想(xiǎng)说的(de)任何话。
这(zhè)是许多人工(gōng)智能算法中最新的一种,它(tā)们可以(yǐ)利用(yòng)一个人的声音(yīn)录(lù)音,让它说出(chū)这个人从未说过的单词和句子——而且它只需(xū)要一(yī)小段音频(pín)就能推(tuī)断出(chū)整个人类(lèi)的声音,这是非(fēi)常(cháng)了不(bú)起的(de)。例如,2017年蒙特利尔大学的Lyrebird算(suàn)法需(xū)要整整一分钟的(de)语音(yīn)来分析,而(ér)Vall-E只需要三(sān)秒(miǎo)钟的音频片段。
人工智能(néng)已经接受了大约6万小时的英语演讲训(xùn)练——似乎主(zhǔ)要(yào)是(shì)通过有(yǒu)声读物解(jiě)说(shuō)员,研究人员提供(gòng)了大量样本,在这些样本中,Vall-E试图(tú)操纵一系列人类的声音。有些人在(zài)捕捉声音的本质(zhì)和构建听起来自然的新句子方面做得非常出色——你很难(nán)分辨出哪(nǎ)个是真实(shí)的声音(yīn),哪个(gè)是合成的(de)。在其他情(qíng)况下(xià),唯(wéi)一的漏洞是人工智能将(jiāng)重点放在句子中奇(qí)怪的地方。
Vall-E在重新创建原始示例的音(yīn)频环(huán)境方面(miàn)做得特别(bié)好。如果样本(běn)听起来像(xiàng)通过电话录制的,那么合(hé)成也是如(rú)此。它在口音(yīn)方面也(yě)很不(bú)错——至少是美式、英式(shì)和一些欧洲口音。
在(zài)情感方面,结果就不那么令(lìng)人印象深刻了。使用愤怒、困倦、有趣或厌恶(è)的语音样本似乎会(huì)让事情(qíng)偏离轨(guǐ)道,合成出来的声音听起来扭(niǔ)曲得很奇怪(guài)。
这类技(jì)术的影响非常明显(xiǎn);从积极的方面来(lái)看,将来你在(zài)超(chāo)市里推手推车的时候,可以(yǐ)让摩(mó)根·弗(fú)里曼(Morgan Freeman)为你的购物清单(dān)念一遍。如(rú)果演(yǎn)员(yuán)在电(diàn)影中(zhōng)中途死亡(wáng),他们可(kě)以使用这样的系统通(tōng)过深度伪造的视频和音频来完(wán)成表演。苹果公司最近(jìn)推出了一(yī)套由人工智能(néng)为你朗读的有声读(dú)物目录,很显然,你很快就能在飞行中切(qiē)换旁白。
消极的(de)一面(miàn)是,这(zhè)对配音演员(yuán)和叙述者来说并(bìng)不是什么好消(xiāo)息。或者对听众来说;人工(gōng)智能(néng)或许能够快速且廉价(jià)地完成(chéng)叙述,但不要(yào)指望它有太多艺术(shù)元素(sù)。他们不会像史(shǐ)蒂芬·弗莱那样解读道格拉(lā)斯·亚当斯。
骗子的潜力(lì)也(yě)非(fēi)常大。如果一个(gè)骗子(zǐ)能让你在电话上停留三秒钟(zhōng),他们(men)就能窃取你(nǐ)的声音,然后用它给你的奶奶打电话。或者绕过任何语音(yīn)识别安全设备。这正是终结者机(jī)器人打电话时需要的东(dōng)西。
当然,每(měi)个人都还在等待这样一(yī)个时(shí)刻:一个政治人物的第一(yī)次深度伪造的演(yǎn)讲,欺骗了足够多的人,破(pò)坏了相信你的眼睛(jīng)和耳朵的概念——就好像客观真理在这个奇(qí)怪的时代还没有受到攻击一样。
微软(ruǎn)Vall-E团队在其演(yǎn)示页面的末尾附加了一份简短的道德声明:“这项(xiàng)工作中(zhōng)的(de)实验是(shì)在假设模型(xíng)的用户是目(mù)标说话者(zhě)并已(yǐ)得(dé)到说话者的批准(zhǔn)的(de)情况(kuàng)下进行的(de)。然而,当模型推广(guǎng)到看不(bú)见的演(yǎn)讲者时,相关(guān)的组件应(yīng)该伴随着语音(yīn)编(biān)辑(jí)模型,包括确保演讲者同(tóng)意执(zhí)行修改的协议和检测编辑后(hòu)的语(yǔ)音的系统。”
像DALL-E、ChatGPT、各种deepfake算法和无数其他创造性人工智能的崛起,感觉(jiào)在(zài)过(guò)去几(jǐ)个月里正处(chù)于一个拐点,开始冲出实验室,进(jìn)入现实(shí)世界。与所(suǒ)有变化一样,它(tā)带(dài)来了机遇和(hé)风(fēng)险。我们真的(de)生活在一个(gè)有(yǒu)趣的时(shí)代。