搜索引擎 search
当前位置:首页 > 网站营销 > 搜索引擎
Google 追寻自己的声音
发布日期:2010-09-01 阅读次数:769 字体大小:

领导Google的语音技术开发与产品应用的Mike Cohen,最近接受本站专访时表示:“Google的使命是整理全世界的资讯,问题是,许多资讯都是用说的。”

Google要开发出适用行动运算和网路应用软体的语音辨识技术。也就是,将重度运算交给资料中心,又能在硬体配备有限之网际网路和行动装置上执行的简单、好用的软体。

电脑语音辨识已存在将近百年(1911年上市的Radio Rex玩具狗即可回应唿叫),但一直无法达到科幻电影中那种精细、灵敏和準确的程度。然而,Cohen相信,业界即将实现重大的突破。他说:“我们的目标是完全普及的语音输入和输出,任何可行的地方,我们都要提供非常优良的(语音辨识)。”

听到你的声音

2004年加入Google的Cohen,已在这个领域耕耘26年。他在Google的主要工作,是将先进的语音辨识和合成技术,应用到Google的各种服务上。

Cohen表示,目前主要的语音技术系统大都已确立其基本架构。第一步是收到的声波分成每10毫秒一组、辨识其声音属性(抑扬顿错)上的微妙差异,制作出那些声音的数位呈现。接下来是困难的部份,将这些声音组对应英语中数十亿组声音组合。(其他语言的程序相同,但对应组的数量各不相同。)

Cohen说:“这基本上就是一个大的统计模型。”Google的方法是分析声音的音质,辨识出其“音素”(phoneme),这些音素如何组成个别的字,和文法如何将那些字构成句子。基本的方法各家公司大都相同,但Cohen自然认为Google有独特的优势。

时间和资料

语音辨识是一个极度运算密集的挑战,即使简单的语音指令,都需要许多运算资源来解读。所幸,Google已累积了大量有关全球使用者的搜寻模式资料,和透过其书籍搜寻计画所数位化的上千万本图文内容。这些资料都能用在语音辨识的处理。

因此,Cohen认为,Google能在更快的时间内提供更准确的结果,因为他们有能力消化庞大的新资料,并与较旧的资料进行比对。Google的最新成果展现在其Android行动作业系统,使用者只要按下一个麦克风键,即可用声音搜寻网路,或启动特定应用程式。

声音障碍

然而,多数人都同意,现在仍没有一家公司能提供真正可靠的语音辨识技术。问题究竟是什么?

Cohen表示,眼前最根本的问题是背景噪音。行动使用者经常因为风声、背景对话或车辆噪音,影响辨识系统的声音接收。改善麦克风或许有助,但系统必须加强处理这类干扰的能力。另一个主要问题是预期使用者会说什么字,并准确地合成句子,所涉及的复杂度。这不只是腔调和方言的问题,还有昵称、俚语和口齿不清、句子不完整等情况,都会混淆最聪明的系统。

用语音搜寻的人通常会自动说出关键字或关键句,如“台北东区的餐厅”,这在预测和交叉比对上都相当有帮助。但语音邮件则完全无法预测,尤其是基于隐私保护,Google没有保留这部份的资料库。

尽管还有许多挑战,不论内外,人们都开始期待Google的语音技术将实现长久以来的幻想。改变长期的输入习惯需要一些时间,但我们已经看到有些人抛弃以往的电脑输入方式(鼠标和键盘),开始拥抱触控和语音输入。Cohen说:“我们不是要消灭既有的输入方法,而是提供另一种选择。”(陈智文/译 作者:Michael Krigsman )