机器识别的迷梦-无名网

机器识别的迷梦

完美认知型计算机的美梦，何以一次又一次令我们心碎。

撰文戴维·波格（David Pogue）

机器识别的迷梦

各大电子产品博客或许陷入了对像素和处理器速度的狂热追求中。但要说到真正令大众眼花缭乱的东西，不妨想想一项极少被大家提及的技术——对现实世界中图像和声音的机器识别（machine recognition）。

该领域的成功案例标志着运算与软件的胜利。笔记本电脑和台式电脑上的语音输入，准确率高得惊人。触摸屏所用的手势操作，基本上都很有效（毕竟要识别的动作就那么几种）。微软公司为Xbox游戏机推出的Kinect和三星公司出产的一些电视机，已经为我们带来了人体动作识别的功能。Windows 7和Windows 8的手写识别也堪称亮点，无论是印刷体的文字还是手写的潦草字迹，均可成功识别。

音乐雷达（Shazam）、音乐猎手（SoundHound）等手机应用程序，能够识别出正在播放的流行音乐，并显示出对应的曲名、演唱者和专辑名。谷歌公司为安卓手机和苹果手机开发了一款名为“谷歌护目镜”（Google Goggles）的应用程序，只要拍一张图书封面、DVD包装盒、酒类标签或画作的照片，该程序就会立刻为你呈现通过谷歌搜索相关物品的结果。

软件甚至可以识别视频中的人脸，YouTube的版权保护算法也能将你上传的视频，与已知的受版权保护的资料进行比对，确保你发布的视频不是出自某部影片。

这一切简直神奇极了。这些应用程序在表现良好的时候，对声音、图像和动作的识别，看起来真如魔法一般。不幸的是，这一点被营销人员发现并充分利用。他们向消费者介绍各种计算机识别功能时，说得简直天花乱坠，而事实上，这些功能的稳定性简直堪比冷核聚变。

数十年来，我已经多次遭受一种只能称之为“识别失败心碎综合征”（recognition-failure heartbreak syndrome，缩写为RFHS）的痛苦。厂商承诺的人类指令识别功能，吸引我买回他们的产品，结果这些产品的实际表现根本不值得你放在心上。

还记得声控灯吗？我上中学时就买过一只。有时候，只要拍一下手就能把灯打开，但有时候就得拍许多下。我还买过一只口哨开关。它可以通过声音识别——一声尖锐、急促的口哨——打开电子设备的电源。好吧，开灯，很好，灯亮了——但是还触发了电水壶、吱嘎作响的仓鼠转轮，还有响亮的喷嚏。我也曾上过苹果公司早年推出的Newton的当，这是一款售价为700美元的手写识别设备，结果每使用5次，大概只有2次能正常工作。

三星公司曾反复承诺，他们的Galaxy S4手机可以将输入的语音片段翻译成另一种语言，就像电影《星际迷航》中展现的那样。根据他们的描述，只要手握这部手机，伸向一位用法语询问“Où sont les toilettes?”的人，它就会大声播放出相应的翻译：“洗手间在哪里？”

可事实上，三星只是在一种语音识别技术的基础上，增添了另一种不成熟的识别技术而已。这款智能翻译应用程序名叫S Translator，它甚至听不懂英语以外的其他语言的发音，更别说把非英语的句子翻译并转换成英语表达了。我猜测三星公司自己也很清楚这一点。如果S Translator真那么好用的话，必然会成为宣传文案上的加粗标题，而不是在列举新功能的时候一句带过。

我们还要失望多少次，才会开始放弃这些特性？我们还要打回多少种产品，才能让厂商在多少打磨一下这些技术后，再大肆宣扬他们那“奇迹般的”功能？

我对此是深表同情的——基于软件的识别技术并不容易。这可不像把统计报表中的数字加起来那样有唯一正确的答案。你要求软件处理的，是一些模糊、不确定的输入变量——声音、图像、动作、潦草的字迹，这就是识别技术无法做到百分百准确的原因所在。需要处理的对象本来就不一致，难怪各种识别技术总让我们失望。或许再过几十年，会有更精密的传感器、更快的处理器、更大的数据集和实验，最终我们将从持续的“识别失败心碎综合征”中解脱出来。与此同时，或许IT企业和消费者都应该加强一下自己的认知：让机器识别我们的现实世界，的确令人心潮澎湃，但在眼下还只是一种期待。（翻译薄锦）

机器识别的迷梦

【相关阅读】

最新文章

推荐文章