pp电子(中国游)官方在线平台







咨(zī)询热线(xiàn):021-80392549

pp电子(中国游)官方在线平台 QQ在线 pp电子(中国游)官方在线平台 企业微信
pp电子(中国游)官方在线平台
pp电子(中国游)官方在线平台 资讯 > 人(rén)工智(zhì)能 > 正文

嘘!AI正(zhèng)在悄悄听(tīng)懂你说的话

2019/02/12机器人(rén)459

小时候看特务电(diàn)影时,特工们往往有一项必备的技(jì)能(néng),就(jiù)是隔(gé)着(zhe)几百米远盯着正在说话的对象,从嘴型判断出对方在说什么。有了这种记忆(yì),导致如今看什么语音识别技术都觉得相(xiàng)当一般——我都说出声儿了你才听(tīng)懂,算什(shí)么AI好汉。

不过最近(jìn)一项专利申请表明,微软(ruǎn)正在向特(tè)工学习(xí),推出了(le)无声语音(yīn)识别技术。当AI也能(néng)像特工一样,无(wú)声之中辩人言,我们的(de)世界究竟(jìng)会有什么不同?

除去唇(chún)语识别,AI还有(yǒu)什么(me)方(fāng)式悄悄听懂(dǒng)你的话(huà)?

说起无(wú)声语音(yīn)识别,可能很多人第一(yī)反应(yīng)就是(shì)复制(zhì)人(rén)类的方式,利用图像识别(bié)进(jìn)行辩读唇语。而利用唇语(yǔ)进行(háng)语(yǔ)音识(shí)别这种方(fāng)式也由来已久,但是识别的准(zhǔn)确率一直不算(suàn)高。DeepMind曾在(zài)2016年做过(guò)测(cè)试,经过1万小时(shí)的新闻视频(pín)训练(liàn),AI唇语准(zhǔn)确率达到了(le)46.8%。国内有一家企业曾经提供过相(xiàng)关数据:在对中文新闻视频的识别中,准(zhǔn)确(què)率达到了70%。而(ér)搜狗所推出的(de)驾驶场(chǎng)景下的唇语识别(bié),因(yīn)为(wéi)涉(shè)及到的词汇(huì)量很(hěn)少,准确率(lǜ)能够达到90%。

可以发现,相比现在主流语音识别动辄95%、97%的准确率,唇语识(shí)别(bié)准确程度实在是有些拿不上(shàng)台面(miàn)。对于中文(wén)这种一字(zì)一音节的(de)语言(yán)来说还(hái)好,对于英文(wén)这种连音(yīn)很多的语言来说,唇(chún)语识别要跨越(yuè)的门(mén)槛(kǎn)确实不小。

另一方面(miàn)来看,唇语识别所涉及到伦(lún)理问题实在过于严重(chóng)。唇语识别的(de)“射程”太远,如果这种技术真(zhēn)的发展(zhǎn)成熟,意(yì)味着(zhe)天(tiān)网之下的我们在(zài)交谈时将再无隐私。在隐私焦虑越来越浓的今(jīn)天,哪家(jiā)企(qǐ)业公开(kāi)研究这项技术,只怕是觉(jiào)得自(zì)己家(jiā)的公关部(bù)门(mén)过得太清闲。

因此包括微软在(zài)内的(de)产业和学(xué)界,都在寻找一种更精准也更隐私的无声语言识别。目前看来,无声语音识别的技术方向可以被分为两个“派系”,一是“气宗”,另一个是“电宗”。

微软所提交的专利,就是典型的“气宗”——在(zài)终端上(shàng)添加(jiā)传(chuán)感器,通过感知用户说话时(shí)的气流来判断用户说话(huà)的内容。这种终端如同一只小型(xíng)麦克风,置于用户嘴边(biān),用户在说话时形成的气流会在设备中形成反射,经过训(xùn)练(liàn),可以将这些气流反射的(de)信号和文字一(yī)一对应(yīng)。

而“电(diàn)宗(zōng)”则(zé)更加神奇(qí),我们知道人在说话时(shí)需要调动整个下半张脸的肌(jī)肉,不同的(de)文字发音所调动(dòng)肌肉(ròu)的(de)方式也并不相(xiàng)同。通过对面部EMG(肌电)信号的采集,来(lái)学习人类说话时面部EMG信号特征,并通过神(shén)经网络(luò)的(de)训练(liàn)将EMG信号(hào)和文字(zì)对应起来。

可以看出这两种无声语(yǔ)音识别都有一个共同(tóng)的特(tè)点(diǎn),那(nà)就是自主性和私密性。不管是EMG信号采集还(hái)是气流采集,都需(xū)要在讲话(huà)者身(shēn)上佩戴好设备,而不(bú)是像图像(xiàng)技术一样(yàng),能够在远程(chéng)且讲(jiǎng)话者不知情的情况下进行采集(jí)分析。

无声语音识(shí)别变成真·气功?

不论(lùn)是气宗(zōng)还是电宗,这些(xiē)无声语音识别技(jì)术都面临着(zhe)同样的(de)问题——既然要用户把话(huà)说出来才能进行识别,那(nà)为什么不直接(jiē)应用语音(yīn)识别来(lái)进行文字转换和翻译,非要弄一些和“气功”一样(yàng)没(méi)有切(qiē)实(shí)应用场景的花招?

其实无声语音识别的(de)应用,可能不像大家想象的那样(yàng)广泛,它既不能(néng)以最高效的方式(shì)帮助听(tīng)障人(rén)士,也不允许被应(yīng)用于(yú)监听等等工作(zuò)。但在一些(xiē)关键场合下,无声语音识别却可(kě)以发挥(huī)出(chū)奇用。

我们可以一(yī)起(qǐ)开动脑筋,想想(xiǎng)在哪(nǎ)里人们需要说话,但却听不到彼此的声音。答案很简单,要么是在声音无法传播的地方,要么是(shì)在(zài)一些特别嘈杂的地方。于是无声语音识别就(jiù)有了如下(xià)的应(yīng)用(yòng)场景:灾害(hài)现场(chǎng)、舱(cāng)外探索、水下作业……

在这类场(chǎng)所中,人们或许为了躲避被污染的空(kōng)气、或许为了呼吸氧(yǎng)气(qì),都会穿(chuān)上类似生化服、宇航员服等等特殊服装。穿上之后既看不到对方的表情,也听不到对方的声音,更没(méi)办法用语音(yīn)交互(hù)去控制其(qí)他设备了。同时环境情况(例(lì)如氧气不(bú)够(gòu)充足)往往不允许人们以(yǐ)正常的声音说话,加上防护服(fú)的封闭状况会引起声(shēng)音的(de)回响,以(yǐ)往(wǎng)的有声语音(yīn)识别在(zài)这(zhè)种情况下很难发(fā)挥作用。

这时可以被安(ān)置在防护服(fú)内部的无声语音(yīn)识别(bié)就显得很(hěn)有(yǒu)价值,讲话者只需要做出口型就能(néng)向外(wài)界传(chuán)递信息。

除此之外还(hái)有嘈杂的马路、工厂(chǎng)车间、机场……

在这些(xiē)场所中,想要让对方听(tīng)清自己(jǐ)的(de)声音,往往需要扯着嗓子(zǐ)吼(hǒu)。想(xiǎng)让语音识(shí)别准(zhǔn)确拾音(yīn),更是难上加难。这时(shí)利用无声语(yǔ)音识(shí)别就会轻(qīng)松很多(duō),不(bú)仅可(kě)以准(zhǔn)确表达信息,也能让一(yī)些(xiē)处于(yú)这种场(chǎng)合(hé)的工作人员戴上隔音耳塞保护自己的(de)听力。

实际(jì)上目前在欧洲一些(xiē)型号的战(zhàn)斗机中,就因为机舱内噪(zào)音巨大、飞行员之间无法沟通,已经应用上(shàng)了EMG信号无(wú)声语音识别技(jì)术。

当然,目前相(xiàng)比(bǐ)语音识别技术、甚至相比唇语语音识别,无声语音识别技术(shù)的发展阶段还很初级(jí),应用效率也(yě)不高。

实(shí)际上无声(shēng)语(yǔ)音(yīn)识别是一项典型(xíng)的“美好(hǎo)而无用”的AI技(jì)术,它既完美体现了一(yī)系列技(jì)术(shù)的排列组合(hé),例如EMG信号无(wú)声(shēng)语音识别(bié)所体(tǐ)现出的(de)AI与神经学的结合;又在应用上(shàng)极大程度的受限,即使在一些(xiē)声音(yīn)难以传播的场景下,也要考虑计算条件、识(shí)别语音后信息再传递的媒(méi)介(jiè),更不用提复杂的(de)数据收集(jí)工作了(le)。

但(dàn)我们有理由相信,在未来AI技术越来越普(pǔ)及化、应用成本越来(lái)越(yuè)低时,总会出现一些极端场景应用上这些看似无(wú)用的技术——也许未来有一天,战斗(dòu)机的控制(zhì)也要应用(yòng)上语音交互呢?

关键词: 人工智能 机器人




AI人工智能网声明:

凡资讯(xùn)来源注明为其他(tā)媒体来(lái)源的信(xìn)息,均为(wéi)转载自其他媒体(tǐ),并不(bú)代表本网(wǎng)站赞(zàn)同其观点,也不代表本网站对其真实性负责。您(nín)若对该文章内容有任何疑问或质疑,请立即与网站(www.longnan.14842.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网站将迅速给您回应并做处理。


联(lián)系电话:021-31666777   新闻、技术(shù)文章投稿QQ:3267146135   投稿(gǎo)邮箱:syy@gongboshi.com

精选资讯(xùn)更(gèng)多

相关(guān)资(zī)讯更多

热(rè)门搜索

工博士人(rén)工智(zhì)能网
pp电子(中国游)官方在线平台
扫描二维码关(guān)注微信
扫(sǎo)码反馈(kuì)

扫一扫,反馈当(dāng)前页面

咨询反(fǎn)馈(kuì)
扫码关注

微信(xìn)公众号(hào)

返回(huí)顶部

pp电子(中国游)官方在线平台

pp电子(中国游)官方在线平台