来自Google的福音：帮助少数人“听见”全世界

2019-09-20 16:56

对语言障碍人群来说，他们与外界的距离又有多远？

今年2月，Google在安卓手机上推出了针对耳聋与听力障碍人群的语音识别应用Live Transcribe，之前又在Google全球开发者大会上发布了能够实时转录语音、以文字支持通话的Live Relay以及Project Euphonia。

通过人工智能和机器学习，“无障碍”拥有了新定义。人机交互产品不亚于互联网世界中的盲道、扶手、助听器和义肢，让特殊人群的声音可以被全世界听见。

Live Transcribe：启动实时字幕

Live Transcribe是Google针对耳聋及听力障碍人群开发的一款免费安卓版无障碍服务，基于此前在自动语音识别技术（ASR）上的研究，该应用将语音自动生成字幕的功能引入了手机设备，是一款非常先进的语音识别应用。

打开Live Transcribe后，它会实时读取外界的语音，并将实时语音转录成文字，在手机屏幕上显示出来。即使是大笑、吹口哨等细节，也会有相应的文字提示。

既然这款应用这么“聪明”，那么它需不需要相应的门槛呢？答案就是你必须有一部联网的手机。如果手机离线，那些“高大上”的功能恐怕也要掉线了。

这是因为Live Transcribe的实时转录不仅需要手机设备上的神经网络做声音分类，还需要依赖云端的三个神经网络模型，去完成语音转录成为文字的过程。正是依赖于Google Cloud Speech API（语音应用编程接口），用户才能通过智能手机的麦克风感受将音频转化为实时字幕的全屏体验。

Google AI Research Group产品经理 Sagar Savla表示，如果要让应用实现完全在本地运行、不依赖云端网络，目前没有准确的时间表，因为像中文这个语种就需要很大的模型，想要将其融入终端设备并保证准确性是很有挑战的。

Live Transcribe作为一种交流工具，目前拥有9大语音功能，譬如可以用70多种语言和方言来描述实时口语单词，无限流媒体，当移动网络和Wi-Fi进行切换时文字不会丢失等等。

当然，在云上工作还意味着网络连接、数据成本和延迟方面都存在潜在风险。因此，为了降低带宽需求和成本，Google评估了不同的音频编解码器，比如他们发现Opus允许数据速率比大多数音乐流媒体服务低许多倍，同时仍保留音频信号的重要细节，简言之就是能够实现“在不影响准确性的情况下，将数据使用量减少10倍”。

Live Relay：用手指“说话”

在今年5月的全球开发者大会上，Google展示了 Live Relay 的能力：即使你本人并非语言障碍人士，倘若遇到听不到或者没法开口说话的情况，是否还能轻松地打电话？

除了语言障碍，社交恐惧、拔牙、噪音等特殊环境都有可能导致人们暂时“失声”。Live Relay 的解决之道就是，只要你在页面里输入单词，它就会迅速将文本转换为音频，发到另一个人的手机上，让你动动手指就能实现电话交谈。

目前，Live Relay 依然处于研究阶段，被称为原型应用程序，只能在特定的Google Pixel系列手机上使用，还不能确定向公众开放的时间表，并且只支持英文。

据称，借助即时响应和预测性输入建议，打字速度提高后，Live Relay就可以与电话呼叫保持同步。虽然该应用被归类为Google的无障碍项目，尤其为听障用户设计，但实际上在许多场景里它都能派上用场。例如商务人士在开会中途突然接到重要电话，却没法跑出去接听时，Live Relay 就能成为他们的救星了。

正如Google首席执行官Sundar Pichai所说，为残疾人提供新产品的基础人工智能研究是他们推进使命的重要途径，这些项目最终也将产生更好地为所有人服务的产品。

Project Euphonia：听懂渐冻症患者的心声

据统计，渐冻症、多发性硬化症、脑外伤、中风等神经系统疾病的患者，通常也会出现语言障碍，外界通常没法理解这类人群说的话，以及表达方式。

Project Euphonia通过与渐冻症组织合作，训练AI去学习和识别渐冻症患者的声音，使得他们发出的声音也能被成功转录。为此，该项目为语言障碍人群建立了语音识别模型，以及能够识别手势、眨眼、面部表情等基于计算机视觉的模型，从而帮助他们更好地向外界表达自己的心声。

于是，Google团队少不了针对特定的患者训练个性化的AI。就拿患有渐冻症十余年的 Steve Saling来说，经过特殊训练的模型可以识别他在观看体育赛事时的面部表情，借此推断出他想要对外表达的情绪。譬如当他想要喝彩时，电脑会发出吹喇叭的声音；喝倒彩时，电脑也会发出相应的嘘声。

Project Euphonia的产品经理Julie Cattiau表示，在研究过程中，他们所面临最大的困难就是收集语音样本，因为语言障碍人群的占比并不高，且经常拥有特定需求，所以团队依然在招募寻找适合做这种语言识别研究的人。

如果可以从语言受损的人群里收集到更多的语音数据，Project Euphonia就有望解决由于训练数据有限而产生的AI偏差问题。不同于Google Assistant这种为响应大多数声音而构建的语音助手，项目本身终究还是适用于少数人。

为了解决这个问题，Google希望世界各地的人们提交他们的语音样本，意图通过收集这些数据来改进算法，最终将更新集成到Google Assistant中。