语音识别软件是个好软件,只要别把它用在手机上-无名网

Siri，你不能再聪明点吗

语音识别软件是个好软件，只要别把它用在手机上。

撰文戴维·波格（David Pogue）

语音识别软件是个好软件,只要别把它用在手机上

苹果公司在2012年推出的iPhone 4S，看上去跟前一款相差无几。新款配置了像素更高的摄像头和速度更快的处理器，却只增添了一项新功能：Siri。

相信大家如今都很熟悉Siri，这是一款可以执行语音指令的辅助类软件。使用者无须接受任何培训，只要按下Home键，像平常一样讲话即可。

Siri在社会文化领域引发了一股热潮。YouTube恶搞视频、各种使用攻略、功能雷同的Android版应用接踵而至。还有专家提出了在公共场合使用手机的新礼仪——如今的手机用户就连通话以外的时间都在对着手机讲话。语音识别功能一时成了时代的宠儿；突然之间，电视机厂商也争相涌入，当然更少不了其他手机厂商的跟进。语音功能被炒得沸沸扬扬，似乎我们与电子产品的互动方式已就此彻底改变。

接着又掀起了一轮大力贬斥的声浪。

电子产品资讯网站Gizmodo，打出了“Siri乃苹果公司背诺之作”的标题。大家发现，有时在你口述完一段文本后，Siri会沉思片刻，然后——就没有然后了。已有多名消费者对苹果发起了集体诉讼，指控苹果涉嫌虚假宣传。苹果方面则表示，Siri还处于公测阶段。

到底是怎么回事？Siri，这位电子界的救世主哟，怎么会成为如此失败的产品？

所有人都忽略了一项事实：“作为虚拟助手的Siri”与“作为语音识别引擎的Siri”须区分看待。就像现实中所显示的，这两种不同性质的功能，迈向成功的轨迹也大相径庭。担当虚拟助手的Siri，其开发商是Siri公司，后被苹果公司收购。（Siri其实是研究机构SRI早年某个军用人工智能开发项目的副产物。这下清楚了吧？）

而听写功能——涉及文本语音转换（text-to-speech）技术——则由美国Nuance软件技术公司提供，该公司旗下产品包括语音识别输入软件Dragon Naturally Speaking等。

在你口述文本时，Siri会生成相应的音频文件，并将其发送到Nuance公司的服务器上；服务器会对这段音频进行分析，再将转换出的文本返回到你的手机上。Siri容易在网络信号不佳或手机网络发生拥堵时表现失常，原因就在于此（使用Wi-Fi上网时，Siri的听写功能就会好用很多）。

需要与远程服务器进行数据交换，正是Siri的听写功能准确率不尽如人意的症结所在。

语音输入的问题还不止于此。不正常的背景杂音、起风、口部与话筒之间的距离不定，均会增加手机完成文本语音转换的难度——准确率也远不如PC版的语音输入软件，后者就完全没有这方面的问题。使用Siri（还有恐怕更经不起考验的Android版语音输入应用）听写出来的文本，平均每段都会出现两到三处错误。

PC版语音输入软件的表现则好很多——准确率接近100％，因为它没有这些困扰。经过你的训练，PC版的语音输入软件可以做到只识别一种声音：你的嗓音。而手机版没有训练功能。声音识别训练所涉及的运算量是远非手机所能负荷的。

这些贬斥的声音并非欲加之罪。我们已经习惯了那些每一次都能正常使用的消费电子技术：电子邮件、全球定位系统、数码相机。依赖于手机上网质量的语音输入技术，性能却时好时坏。这种状况出现在当今时代，难免会令用户感到难以接受。

但我们也别对Siri全盘否定。Siri的“虚拟助手”功能——所有那些设定闹钟、拨打电话、发送短信、安排行程之类的指令——性能就很稳定。哪怕你所用的全是些最基本的指令，像是“X点叫我起床”“拨打XXX的电话”“发条短信给XXX”“提醒我……”等，也能帮你节省时间、避免错漏。

自由形式的手机语音输入是一项尚未成熟的技术。不过，它在电子产品控制界面领域的应用，让我们看到了语音输入软件的光明未来，一如Siri在之前所承诺的那样。不妨等到Siri公测结束后再来评说。（翻译薄锦）

语音识别软件是个好软件,只要别把它用在手机上

【相关阅读】

最新文章

推荐文章