谷歌人工智能取得新进展：只看一次图片就能认得图中物体

时间：2024-05-04

鼎宏

计算机算法通常需要成千上万个例子才能学会一件事情，但谷歌DeepMind的研究人员却找到一种绕过这一流程的方法。

多数人看过某个东西一两次后就能认出这种物体，而计算机视觉识别和语音识别算法却需要成千上万个例子才能熟悉一种新的图形或单词。

谷歌DeepMind研究人员现在找到了一种新的方法，他们对深度学习算法进行了一些调整，使之只需通过一个例子便可认出图像中的物体或其他东西—他们称之为“单次学习”。该团队针对大量添加了标签的图片以及手写字体和语言对此进行了验证。

最好的算法的确能够可靠地识别物体，但由于需要庞大的数据，所以非常耗费时间和金钱。例如，想要让算法识别出道路上的汽车，就需要为其提供成千上万个例子，这样才能使无人驾驶汽车达到可靠的识别率。但要收集如此多的数据并不现实，如不可能为了让一个机器人在一套不熟悉的房子里行走而为其提供长时间的学习机会。

谷歌DeepMind研究员奥里奥尔·温亚尔斯（Oriol Vinyals）在深度学习系统中增加了一个记忆组件。该团队利用一个名为ImageNet的标记图片数据库对该系统的能力进行了验证。

这套软件仍然需要分析数百种图片，但此后就可以学会用一张照片识别新的物体。它本质上是通过分析图片中的独特元素来完成识别任务。这种算法只需要看一个例子，便可达到近似于傳统深度学习系统的准确率。

温亚尔斯称，如果能够快速识别出一个新单词的意思，这项技术的用途便会得到明确体现。这对谷歌非常有用，因此该公司可以借此快速学习某个新的搜索项的含义。

之前也曾有人开发过单次学习系统，但通常不兼容深度学习系统。“我认为这是一种很有趣的方法，它提供了一种新颖的方式对大规模的数据库进行单次学习。”韩国先进科技学院大脑和机器智能实验室主任Sang Wan Lee说，“这为人工智能社区做出了技术贡献，计算机视觉研究人员可能非常重视此事。”

但也有人对这项技术的用途提出质疑，毕竟它与人类的学习方法存在很大差异。哈佛大学脑科学系副教授山姆·格什曼（Sam Gershman）表示，人类通常是通过理解一张图像的组成元素来学习的，这需要一些实际的知识或尝试。例如，“赛格威可能看上去与自行车或摩托车大不相同，但它却可以使用相同的零件。”

不过，格什曼和Sang Wan Lee都表示，机器要在学习能力上比拼人类仍然要经过一段时间的发展。“我们远远没有揭开人类单次学习的秘密。”Sang Wan Lee说。

我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!