Siri,你不能再聪明点吗
语音识别软件是个好软件,只要别把它用在手机上。
撰文戴维·波格(David Pogue)
苹果公司在2012年推出的iPhone 4S,看上去跟前一款相差无几。新款配置了像素更高的摄像头和速度更快的处理器,却只增添了一项新功能:Siri。
相信大家如今都很熟悉Siri,这是一款可以执行语音指令的辅助类软件。使用者无须接受任何培训,只要按下Home键,像平常一样讲话即可。
Siri在社会文化领域引发了一股热潮。YouTube恶搞视频、各种使用攻略、功能雷同的Android版应用接踵而至。还有专家提出了在公共场合使用手机的新礼仪——如今的手机用户就连通话以外的时间都在对着手机讲话。语音识别功能一时成了时代的宠儿;突然之间,电视机厂商也争相涌入,当然更少不了其他手机厂商的跟进。语音功能被炒得沸沸扬扬,似乎我们与电子产品的互动方式已就此彻底改变。
接着又掀起了一轮大力贬斥的声浪。
电子产品资讯网站Gizmodo,打出了“Siri乃苹果公司背诺之作”的标题。大家发现,有时在你口述完一段文本后,Siri会沉思片刻,然后——就没有然后了。已有多名消费者对苹果发起了集体诉讼,指控苹果涉嫌虚假宣传。苹果方面则表示,Siri还处于公测阶段。
到底是怎么回事?Siri,这位电子界的救世主哟,怎么会成为如此失败的产品?
所有人都忽略了一项事实:“作为虚拟助手的Siri”与“作为语音识别引擎的Siri”须区分看待。就像现实中所显示的,这两种不同性质的功能,迈向成功的轨迹也大相径庭。担当虚拟助手的Siri,其开发商是Siri公司,后被苹果公司收购。(Siri其实是研究机构SRI早年某个军用人工智能开发项目的副产物。这下清楚了吧?)
而听写功能——涉及文本语音转换(text-to-speech)技术——则由美国Nuance软件技术公司提供,该公司旗下产品包括语音识别输入软件Dragon Naturally Speaking等。
在你口述文本时,Siri会生成相应的音频文件,并将其发送到Nuance公司的服务器上;服务器会对这段音频进行分析,再将转换出的文本返回到你的手机上。Siri容易在网络信号不佳或手机网络发生拥堵时表现失常,原因就在于此(使用Wi-Fi上网时,Siri的听写功能就会好用很多)。
需要与远程服务器进行数据交换,正是Siri的听写功能准确率不尽如人意的症结所在。
语音输入的问题还不止于此。不正常的背景杂音、起风、口部与话筒之间的距离不定,均会增加手机完成文本语音转换的难度——准确率也远不如PC版的语音输入软件,后者就完全没有这方面的问题。使用Siri(还有恐怕更经不起考验的Android版语音输入应用)听写出来的文本,平均每段都会出现两到三处错误。
PC版语音输入软件的表现则好很多——准确率接近100%,因为它没有这些困扰。经过你的训练,PC版的语音输入软件可以做到只识别一种声音:你的嗓音。而手机版没有训练功能。声音识别训练所涉及的运算量是远非手机所能负荷的。
这些贬斥的声音并非欲加之罪。我们已经习惯了那些每一次都能正常使用的消费电子技术:电子邮件、全球定位系统、数码相机。依赖于手机上网质量的语音输入技术,性能却时好时坏。这种状况出现在当今时代,难免会令用户感到难以接受。
但我们也别对Siri全盘否定。Siri的“虚拟助手”功能——所有那些设定闹钟、拨打电话、发送短信、安排行程之类的指令——性能就很稳定。哪怕你所用的全是些最基本的指令,像是“X点叫我起床”“拨打XXX的电话”“发条短信给XXX”“提醒我……”等,也能帮你节省时间、避免错漏。
自由形式的手机语音输入是一项尚未成熟的技术。不过,它在电子产品控制界面领域的应用,让我们看到了语音输入软件的光明未来,一如Siri在之前所承诺的那样。不妨等到Siri公测结束后再来评说。(翻译薄锦)