机器识别的迷梦
完美认知型计算机的美梦,何以一次又一次令我们心碎。
撰文戴维·波格(David Pogue)
各大电子产品博客或许陷入了对像素和处理器速度的狂热追求中。但要说到真正令大众眼花缭乱的东西,不妨想想一项极少被大家提及的技术——对现实世界中图像和声音的机器识别(machine recognition)。
该领域的成功案例标志着运算与软件的胜利。笔记本电脑和台式电脑上的语音输入,准确率高得惊人。触摸屏所用的手势操作,基本上都很有效(毕竟要识别的动作就那么几种)。微软公司为Xbox游戏机推出的Kinect和三星公司出产的一些电视机,已经为我们带来了人体动作识别的功能。Windows 7和Windows 8的手写识别也堪称亮点,无论是印刷体的文字还是手写的潦草字迹,均可成功识别。
音乐雷达(Shazam)、音乐猎手(SoundHound)等手机应用程序,能够识别出正在播放的流行音乐,并显示出对应的曲名、演唱者和专辑名。谷歌公司为安卓手机和苹果手机开发了一款名为“谷歌护目镜”(Google Goggles)的应用程序,只要拍一张图书封面、DVD包装盒、酒类标签或画作的照片,该程序就会立刻为你呈现通过谷歌搜索相关物品的结果。
软件甚至可以识别视频中的人脸,YouTube的版权保护算法也能将你上传的视频,与已知的受版权保护的资料进行比对,确保你发布的视频不是出自某部影片。
这一切简直神奇极了。这些应用程序在表现良好的时候,对声音、图像和动作的识别,看起来真如魔法一般。不幸的是,这一点被营销人员发现并充分利用。他们向消费者介绍各种计算机识别功能时,说得简直天花乱坠,而事实上,这些功能的稳定性简直堪比冷核聚变。
数十年来,我已经多次遭受一种只能称之为“识别失败心碎综合征”(recognition-failure heartbreak syndrome,缩写为RFHS)的痛苦。厂商承诺的人类指令识别功能,吸引我买回他们的产品,结果这些产品的实际表现根本不值得你放在心上。
还记得声控灯吗?我上中学时就买过一只。有时候,只要拍一下手就能把灯打开,但有时候就得拍许多下。我还买过一只口哨开关。它可以通过声音识别——一声尖锐、急促的口哨——打开电子设备的电源。好吧,开灯,很好,灯亮了——但是还触发了电水壶、吱嘎作响的仓鼠转轮,还有响亮的喷嚏。我也曾上过苹果公司早年推出的Newton的当,这是一款售价为700美元的手写识别设备,结果每使用5次,大概只有2次能正常工作。
三星公司曾反复承诺,他们的Galaxy S4手机可以将输入的语音片段翻译成另一种语言,就像电影《星际迷航》中展现的那样。根据他们的描述,只要手握这部手机,伸向一位用法语询问“Où sont les toilettes?”的人,它就会大声播放出相应的翻译:“洗手间在哪里?”
可事实上,三星只是在一种语音识别技术的基础上,增添了另一种不成熟的识别技术而已。这款智能翻译应用程序名叫S Translator,它甚至听不懂英语以外的其他语言的发音,更别说把非英语的句子翻译并转换成英语表达了。我猜测三星公司自己也很清楚这一点。如果S Translator真那么好用的话,必然会成为宣传文案上的加粗标题,而不是在列举新功能的时候一句带过。
我们还要失望多少次,才会开始放弃这些特性?我们还要打回多少种产品,才能让厂商在多少打磨一下这些技术后,再大肆宣扬他们那“奇迹般的”功能?
我对此是深表同情的——基于软件的识别技术并不容易。这可不像把统计报表中的数字加起来那样有唯一正确的答案。你要求软件处理的,是一些模糊、不确定的输入变量——声音、图像、动作、潦草的字迹,这就是识别技术无法做到百分百准确的原因所在。需要处理的对象本来就不一致,难怪各种识别技术总让我们失望。或许再过几十年,会有更精密的传感器、更快的处理器、更大的数据集和实验,最终我们将从持续的“识别失败心碎综合征”中解脱出来。与此同时,或许IT企业和消费者都应该加强一下自己的认知:让机器识别我们的现实世界,的确令人心潮澎湃,但在眼下还只是一种期待。(翻译薄锦)