Google 追寻自己的声音

领导Google的语音技术开发与产品应用的Mike Cohen，最近接受本站专访时表示：“Google的使命是整理全世界的资讯，问题是，许多资讯都是用说的。”

Google要开发出适用行动运算和网路应用软体的语音辨识技术。也就是，将重度运算交给资料中心，又能在硬体配备有限之网际网路和行动装置上执行的简单、好用的软体。

电脑语音辨识已存在将近百年（1911年上市的Radio Rex玩具狗即可回应唿叫），但一直无法达到科幻电影中那种精细、灵敏和準确的程度。然而，Cohen相信，业界即将实现重大的突破。他说：“我们的目标是完全普及的语音输入和输出，任何可行的地方，我们都要提供非常优良的（语音辨识）。”

听到你的声音

2004年加入Google的Cohen，已在这个领域耕耘26年。他在Google的主要工作，是将先进的语音辨识和合成技术，应用到Google的各种服务上。

Cohen表示，目前主要的语音技术系统大都已确立其基本架构。第一步是收到的声波分成每10毫秒一组、辨识其声音属性（抑扬顿错）上的微妙差异，制作出那些声音的数位呈现。接下来是困难的部份，将这些声音组对应英语中数十亿组声音组合。（其他语言的程序相同，但对应组的数量各不相同。）

Cohen说：“这基本上就是一个大的统计模型。”Google的方法是分析声音的音质，辨识出其“音素”（phoneme），这些音素如何组成个别的字，和文法如何将那些字构成句子。基本的方法各家公司大都相同，但Cohen自然认为Google有独特的优势。

时间和资料

语音辨识是一个极度运算密集的挑战，即使简单的语音指令，都需要许多运算资源来解读。所幸，Google已累积了大量有关全球使用者的搜寻模式资料，和透过其书籍搜寻计画所数位化的上千万本图文内容。这些资料都能用在语音辨识的处理。

因此，Cohen认为，Google能在更快的时间内提供更准确的结果，因为他们有能力消化庞大的新资料，并与较旧的资料进行比对。Google的最新成果展现在其Android行动作业系统，使用者只要按下一个麦克风键，即可用声音搜寻网路，或启动特定应用程式。

声音障碍

然而，多数人都同意，现在仍没有一家公司能提供真正可靠的语音辨识技术。问题究竟是什么？

Cohen表示，眼前最根本的问题是背景噪音。行动使用者经常因为风声、背景对话或车辆噪音，影响辨识系统的声音接收。改善麦克风或许有助，但系统必须加强处理这类干扰的能力。另一个主要问题是预期使用者会说什么字，并准确地合成句子，所涉及的复杂度。这不只是腔调和方言的问题，还有昵称、俚语和口齿不清、句子不完整等情况，都会混淆最聪明的系统。

用语音搜寻的人通常会自动说出关键字或关键句，如“台北东区的餐厅”，这在预测和交叉比对上都相当有帮助。但语音邮件则完全无法预测，尤其是基于隐私保护，Google没有保留这部份的资料库。

尽管还有许多挑战，不论内外，人们都开始期待Google的语音技术将实现长久以来的幻想。改变长期的输入习惯需要一些时间，但我们已经看到有些人抛弃以往的电脑输入方式（鼠标和键盘），开始拥抱触控和语音输入。Cohen说：“我们不是要消灭既有的输入方法，而是提供另一种选择。”（陈智文/译作者：Michael Krigsman ）