pp电子(中国游)官方在线平台

小时候看特务电（diàn）影时，特工们往往有一项必备的技（jì）能（néng），就（jiù）是隔（gé）着（zhe）几百米远盯着正在说话的对象，从嘴型判断出对方在说什么。有了这种记忆（yì），导致如今看什么语音识别技术都觉得相（xiàng）当一般——我都说出声儿了你才听（tīng）懂，算什（shí）么AI好汉。

不过最近（jìn）一项专利申请表明，微软（ruǎn）正在向特（tè）工学习（xí），推出了（le）无声语音（yīn）识别技术。当AI也能（néng）像特工一样，无（wú）声之中辩人言，我们的（de）世界究竟（jìng）会有什么不同？

除去唇（chún）语识别，AI还有（yǒu）什么（me）方（fāng）式悄悄听懂（dǒng）你的话（huà）？

说起无（wú）声语音（yīn）识别，可能很多人第一（yī）反应（yīng）就是（shì）复制（zhì）人（rén）类的方式，利用图像识别（bié）进（jìn）行辩读唇语。而利用唇语（yǔ）进行（háng）语（yǔ）音识（shí）别这种方（fāng）式也由来已久，但是识别的准（zhǔn）确率一直不算（suàn）高。DeepMind曾在（zài）2016年做过（guò）测（cè）试，经过1万小时（shí）的新闻视频（pín）训练（liàn），AI唇语准（zhǔn）确率达到了（le）46.8%。国内有一家企业曾经提供过相（xiàng）关数据：在对中文新闻视频的识别中，准（zhǔn）确（què）率达到了70%。而（ér）搜狗所推出的（de）驾驶场（chǎng）景下的唇语识别（bié），因（yīn）为（wéi）涉（shè）及到的词汇（huì）量很（hěn）少，准确率（lǜ）能够达到90%。

可以发现，相比现在主流语音识别动辄95%、97%的准确率，唇语识（shí）别（bié）准确程度实在是有些拿不上（shàng）台面（miàn）。对于中文（wén）这种一字（zì）一音节的（de）语言（yán）来说还（hái）好，对于英文（wén）这种连音（yīn）很多的语言来说，唇（chún）语识别要跨越（yuè）的门（mén）槛（kǎn）确实不小。

另一方面（miàn）来看，唇语识别所涉及到伦（lún）理问题实在过于严重（chóng）。唇语识别的（de）“射程”太远，如果这种技术真（zhēn）的发展（zhǎn）成熟，意（yì）味着（zhe）天（tiān）网之下的我们在（zài）交谈时将再无隐私。在隐私焦虑越来越浓的今（jīn）天，哪家（jiā）企（qǐ）业公开（kāi）研究这项技术，只怕是觉（jiào）得自（zì）己家（jiā）的公关部（bù）门（mén）过得太清闲。

因此包括微软在（zài）内的（de）产业和学（xué）界，都在寻找一种更精准也更隐私的无声语言识别。目前看来，无声语音识别的技术方向可以被分为两个“派系”，一是“气宗”，另一个是“电宗”。

微软所提交的专利，就是典型的“气宗”——在（zài）终端上（shàng）添加（jiā）传（chuán）感器，通过感知用户说话时（shí）的气流来判断用户说话（huà）的内容。这种终端如同一只小型（xíng）麦克风，置于用户嘴边（biān），用户在说话时形成的气流会在设备中形成反射，经过训（xùn）练（liàn），可以将这些气流反射的（de）信号和文字一（yī）一对应（yīng）。

而“电（diàn）宗（zōng）”则（zé）更加神奇（qí），我们知道人在说话时（shí）需要调动整个下半张脸的肌（jī）肉，不同的（de）文字发音所调动（dòng）肌肉（ròu）的（de）方式也并不相（xiàng）同。通过对面部EMG（肌电）信号的采集，来（lái）学习人类说话时面部EMG信号特征，并通过神（shén）经网络（luò）的（de）训练（liàn）将EMG信号（hào）和文字（zì）对应起来。

可以看出这两种无声语（yǔ）音识别都有一个共同（tóng）的特（tè）点（diǎn），那（nà）就是自主性和私密性。不管是EMG信号采集还（hái）是气流采集，都需（xū）要在讲话（huà）者身（shēn）上佩戴好设备，而不（bú）是像图像（xiàng）技术一样（yàng），能够在远程（chéng）且讲（jiǎng）话者不知情的情况下进行采集（jí）分析。

无声语音识（shí）别变成真·气功？

不论（lùn）是气宗（zōng）还是电宗，这些（xiē）无声语音识别技（jì）术都面临着（zhe）同样的（de）问题——既然要用户把话（huà）说出来才能进行识别，那（nà）为什么不直接（jiē）应用语音（yīn）识别来（lái）进行文字转换和翻译，非要弄一些和“气功”一样（yàng）没（méi）有切（qiē）实（shí）应用场景的花招？

其实无声语音识别的（de）应用，可能不像大家想象的那样（yàng）广泛，它既不能（néng）以最高效的方式（shì）帮助听（tīng）障人（rén）士，也不允许被应（yīng）用于（yú）监听等等工作（zuò）。但在一些（xiē）关键场合下，无声语音识别却可（kě）以发挥（huī）出（chū）奇用。

我们可以一（yī）起（qǐ）开动脑筋，想想（xiǎng）在哪（nǎ）里人们需要说话，但却听不到彼此的声音。答案很简单，要么是在声音无法传播的地方，要么是（shì）在（zài）一些特别嘈杂的地方。于是无声语音识别就（jiù）有了如下（xià）的应（yīng）用（yòng）场景：灾害（hài）现场（chǎng）、舱（cāng）外探索、水下作业……

在这类场（chǎng）所中，人们或许为了躲避被污染的空（kōng）气、或许为了呼吸氧（yǎng）气（qì），都会穿（chuān）上类似生化服、宇航员服等等特殊服装。穿上之后既看不到对方的表情，也听不到对方的声音，更没（méi）办法用语音（yīn）交互（hù）去控制其（qí）他设备了。同时环境情况（例（lì）如氧气不（bú）够（gòu）充足）往往不允许人们以（yǐ）正常的声音说话，加上防护服（fú）的封闭状况会引起声（shēng）音的（de）回响，以（yǐ）往（wǎng）的有声语音（yīn）识别在（zài）这（zhè）种情况下很难发（fā）挥作用。

这时可以被安（ān）置在防护服（fú）内部的无声语音（yīn）识别（bié）就显得很（hěn）有（yǒu）价值，讲话者只需要做出口型就能（néng）向外（wài）界传（chuán）递信息。

除此之外还（hái）有嘈杂的马路、工厂（chǎng）车间、机场……

在这些（xiē）场所中，想要让对方听（tīng）清自己（jǐ）的（de）声音，往往需要扯着嗓子（zǐ）吼（hǒu）。想（xiǎng）让语音识（shí）别准（zhǔn）确拾音（yīn），更是难上加难。这时（shí）利用无声语（yǔ）音识（shí）别就会轻（qīng）松很多（duō），不（bú）仅可（kě）以准（zhǔn）确表达信息，也能让一（yī）些（xiē）处于（yú）这种场（chǎng）合（hé）的工作人员戴上隔音耳塞保护自己的（de）听力。

实际（jì）上目前在欧洲一些（xiē）型号的战（zhàn）斗机中，就因为机舱内噪（zào）音巨大、飞行员之间无法沟通，已经应用上（shàng）了EMG信号无（wú）声语音识别技（jì）术。

当然，目前相（xiàng）比（bǐ）语音识别技术、甚至相比唇语语音识别，无声语音识别技术（shù）的发展阶段还很初级（jí），应用效率也（yě）不高。

实（shí）际上无声（shēng）语（yǔ）音（yīn）识别是一项典型（xíng）的“美好（hǎo）而无用”的AI技（jì）术，它既完美体现了一（yī）系列技（jì）术（shù）的排列组合（hé），例如EMG信号无（wú）声（shēng）语音识别（bié）所体（tǐ）现出的（de）AI与神经学的结合；又在应用上（shàng）极大程度的受限，即使在一些（xiē）声音（yīn）难以传播的场景下，也要考虑计算条件、识（shí）别语音后信息再传递的媒（méi）介（jiè），更不用提复杂的（de）数据收集（jí）工作了（le）。

但（dàn）我们有理由相信，在未来AI技术越来越普（pǔ）及化、应用成本越来（lái）越（yuè）低时，总会出现一些极端场景应用上这些看似无（wú）用的技术——也许未来有一天，战斗（dòu）机的控制（zhì）也要应用（yòng）上语音交互呢？