小时候看特务电(diàn)影时,特工们往往有一项必备的技(jì)能(néng),就(jiù)是隔(gé)着(zhe)几百米远盯着正在说话的对象,从嘴型判断出对方在说什么。有了这种记忆(yì),导致如今看什么语音识别技术都觉得相(xiàng)当一般——我都说出声儿了你才听(tīng)懂,算什(shí)么AI好汉。
不过最近(jìn)一项专利申请表明,微软(ruǎn)正在向特(tè)工学习(xí),推出了(le)无声语音(yīn)识别技术。当AI也能(néng)像特工一样,无(wú)声之中辩人言,我们的(de)世界究竟(jìng)会有什么不同?
除去唇(chún)语识别,AI还有(yǒu)什么(me)方(fāng)式悄悄听懂(dǒng)你的话(huà)?
说起无(wú)声语音(yīn)识别,可能很多人第一(yī)反应(yīng)就是(shì)复制(zhì)人(rén)类的方式,利用图像识别(bié)进(jìn)行辩读唇语。而利用唇语(yǔ)进行(háng)语(yǔ)音识(shí)别这种方(fāng)式也由来已久,但是识别的准(zhǔn)确率一直不算(suàn)高。DeepMind曾在(zài)2016年做过(guò)测(cè)试,经过1万小时(shí)的新闻视频(pín)训练(liàn),AI唇语准(zhǔn)确率达到了(le)46.8%。国内有一家企业曾经提供过相(xiàng)关数据:在对中文新闻视频的识别中,准(zhǔn)确(què)率达到了70%。而(ér)搜狗所推出的(de)驾驶场(chǎng)景下的唇语识别(bié),因(yīn)为(wéi)涉(shè)及到的词汇(huì)量很(hěn)少,准确率(lǜ)能够达到90%。
可以发现,相比现在主流语音识别动辄95%、97%的准确率,唇语识(shí)别(bié)准确程度实在是有些拿不上(shàng)台面(miàn)。对于中文(wén)这种一字(zì)一音节的(de)语言(yán)来说还(hái)好,对于英文(wén)这种连音(yīn)很多的语言来说,唇(chún)语识别要跨越(yuè)的门(mén)槛(kǎn)确实不小。
另一方面(miàn)来看,唇语识别所涉及到伦(lún)理问题实在过于严重(chóng)。唇语识别的(de)“射程”太远,如果这种技术真(zhēn)的发展(zhǎn)成熟,意(yì)味着(zhe)天(tiān)网之下的我们在(zài)交谈时将再无隐私。在隐私焦虑越来越浓的今(jīn)天,哪家(jiā)企(qǐ)业公开(kāi)研究这项技术,只怕是觉(jiào)得自(zì)己家(jiā)的公关部(bù)门(mén)过得太清闲。
因此包括微软在(zài)内的(de)产业和学(xué)界,都在寻找一种更精准也更隐私的无声语言识别。目前看来,无声语音识别的技术方向可以被分为两个“派系”,一是“气宗”,另一个是“电宗”。
微软所提交的专利,就是典型的“气宗”——在(zài)终端上(shàng)添加(jiā)传(chuán)感器,通过感知用户说话时(shí)的气流来判断用户说话(huà)的内容。这种终端如同一只小型(xíng)麦克风,置于用户嘴边(biān),用户在说话时形成的气流会在设备中形成反射,经过训(xùn)练(liàn),可以将这些气流反射的(de)信号和文字一(yī)一对应(yīng)。
而“电(diàn)宗(zōng)”则(zé)更加神奇(qí),我们知道人在说话时(shí)需要调动整个下半张脸的肌(jī)肉,不同的(de)文字发音所调动(dòng)肌肉(ròu)的(de)方式也并不相(xiàng)同。通过对面部EMG(肌电)信号的采集,来(lái)学习人类说话时面部EMG信号特征,并通过神(shén)经网络(luò)的(de)训练(liàn)将EMG信号(hào)和文字(zì)对应起来。
可以看出这两种无声语(yǔ)音识别都有一个共同(tóng)的特(tè)点(diǎn),那(nà)就是自主性和私密性。不管是EMG信号采集还(hái)是气流采集,都需(xū)要在讲话(huà)者身(shēn)上佩戴好设备,而不(bú)是像图像(xiàng)技术一样(yàng),能够在远程(chéng)且讲(jiǎng)话者不知情的情况下进行采集(jí)分析。
无声语音识(shí)别变成真·气功?
不论(lùn)是气宗(zōng)还是电宗,这些(xiē)无声语音识别技(jì)术都面临着(zhe)同样的(de)问题——既然要用户把话(huà)说出来才能进行识别,那(nà)为什么不直接(jiē)应用语音(yīn)识别来(lái)进行文字转换和翻译,非要弄一些和“气功”一样(yàng)没(méi)有切(qiē)实(shí)应用场景的花招?
其实无声语音识别的(de)应用,可能不像大家想象的那样(yàng)广泛,它既不能(néng)以最高效的方式(shì)帮助听(tīng)障人(rén)士,也不允许被应(yīng)用于(yú)监听等等工作(zuò)。但在一些(xiē)关键场合下,无声语音识别却可(kě)以发挥(huī)出(chū)奇用。
我们可以一(yī)起(qǐ)开动脑筋,想想(xiǎng)在哪(nǎ)里人们需要说话,但却听不到彼此的声音。答案很简单,要么是在声音无法传播的地方,要么是(shì)在(zài)一些特别嘈杂的地方。于是无声语音识别就(jiù)有了如下(xià)的应(yīng)用(yòng)场景:灾害(hài)现场(chǎng)、舱(cāng)外探索、水下作业……
在这类场(chǎng)所中,人们或许为了躲避被污染的空(kōng)气、或许为了呼吸氧(yǎng)气(qì),都会穿(chuān)上类似生化服、宇航员服等等特殊服装。穿上之后既看不到对方的表情,也听不到对方的声音,更没(méi)办法用语音(yīn)交互(hù)去控制其(qí)他设备了。同时环境情况(例(lì)如氧气不(bú)够(gòu)充足)往往不允许人们以(yǐ)正常的声音说话,加上防护服(fú)的封闭状况会引起声(shēng)音的(de)回响,以(yǐ)往(wǎng)的有声语音(yīn)识别在(zài)这(zhè)种情况下很难发(fā)挥作用。
这时可以被安(ān)置在防护服(fú)内部的无声语音(yīn)识别(bié)就显得很(hěn)有(yǒu)价值,讲话者只需要做出口型就能(néng)向外(wài)界传(chuán)递信息。
除此之外还(hái)有嘈杂的马路、工厂(chǎng)车间、机场……
在这些(xiē)场所中,想要让对方听(tīng)清自己(jǐ)的(de)声音,往往需要扯着嗓子(zǐ)吼(hǒu)。想(xiǎng)让语音识(shí)别准(zhǔn)确拾音(yīn),更是难上加难。这时(shí)利用无声语(yǔ)音识(shí)别就会轻(qīng)松很多(duō),不(bú)仅可(kě)以准(zhǔn)确表达信息,也能让一(yī)些(xiē)处于(yú)这种场(chǎng)合(hé)的工作人员戴上隔音耳塞保护自己的(de)听力。
实际(jì)上目前在欧洲一些(xiē)型号的战(zhàn)斗机中,就因为机舱内噪(zào)音巨大、飞行员之间无法沟通,已经应用上(shàng)了EMG信号无(wú)声语音识别技(jì)术。
当然,目前相(xiàng)比(bǐ)语音识别技术、甚至相比唇语语音识别,无声语音识别技术(shù)的发展阶段还很初级(jí),应用效率也(yě)不高。
实(shí)际上无声(shēng)语(yǔ)音(yīn)识别是一项典型(xíng)的“美好(hǎo)而无用”的AI技(jì)术,它既完美体现了一(yī)系列技(jì)术(shù)的排列组合(hé),例如EMG信号无(wú)声(shēng)语音识别(bié)所体(tǐ)现出的(de)AI与神经学的结合;又在应用上(shàng)极大程度的受限,即使在一些(xiē)声音(yīn)难以传播的场景下,也要考虑计算条件、识(shí)别语音后信息再传递的媒(méi)介(jiè),更不用提复杂的(de)数据收集(jí)工作了(le)。
但(dàn)我们有理由相信,在未来AI技术越来越普(pǔ)及化、应用成本越来(lái)越(yuè)低时,总会出现一些极端场景应用上这些看似无(wú)用的技术——也许未来有一天,战斗(dòu)机的控制(zhì)也要应用(yòng)上语音交互呢?