百度超级计算机在图像识别方面超过谷歌

  机器学习领域中针对深度学习的专业超级计算机,将会使得软件能够更好地理解我们。
  Tom Simonite,2015年5月13日。党元杰翻译。

中国搜索引擎巨头百度声称它们开发出的超级计算机将会给人工智能带来新的力量,可以帮助软件更好地理解话语(Speech),图像(image)和文字(written language)。

在北京的这台计算机叫做 Minwa ,它有72个强大的处理器,和144个图形处理器(GPUs)。周一晚上,百度发布了一篇论文声称,用这台计算机训练的机器学习软件创造了图像识别新的记录,并超过了先前谷歌所创造的记录。

百度关于这一项目科学家Wu Ren,在周二举行的嵌入式视觉峰会上发言说:“我们公司在人工智能领域处于前沿位置”。Minwa 的计算能力,不考虑在深度学习领域,处于世界前300的的位置,Wu 说:“我想这是应用在深度学习方面最快的超级电脑。”他还说,“我们手边有巨大的计算能力,这一点上,我们要强于我们的竞争者。”

计算能力对深度学习来说至关重要,它使得机器学习在话语,图像,人脸识别上有所提升,并极大的提升了百度和谷歌的图像搜索服务和语音识别服务。

这一技术是10年前技术的一种提升,使用人工神经网络对数据进行处理,而这一处理方式类似于人脑的工作方式。深度学习使用更大规模的神经网络,采用分层的结构,并用更大规模的数据(例如,图片,文本和语音)进行训练。

Wu说,眼下,更大规模的数据和网络对这一技术更为有利。和先前的机器学习的方法路数不同,深度学习对大数据有较小的数据返回。“先前,提升数据的规模超过某一个临界点,人们不回发现算法的提升,而通过深度学习,却可以继续提升。”百度声称通过Minwa它们构建了包含千亿个节点的神经网络——这一网络是以往网络规模的数百倍大。

周一发布的论文是对Minwa 性能的一个测试。这篇文章描述了如何用这台超级计算机来训练神经网络,并创造了图像识别的新纪录。对于 The ImageNet Classification Challenge,它要求软件训练包含150万张1000个不同种类的标注数据,并用训练好的软件对10万张没有见过的数据进行标注。

通过软件给出的一张图像的前五个答案错过正确答案的频率,对不同的软件进行比较。在百度的计算机上训练得到的系统的错误率只有4.58%。三月份,谷歌给出的错误率为4.82%。一个月以前,微软给出的错误率为4.94%,首次超过人类的平均表现5.1%。

Wu说,Minwa使得该系统能够训练高分辨率图像。在训练的过程中通过无序化,翻转和改变颜色的方法,将120万张图片的训练数据增加到20亿张。使用更大规模的数据集,可以防止系统停驻在训练数据固定的细节上,进而可以提高精度。得到的系统对现实中的图像将会有更好的处理能力。

深度学习在the ImageNet Challenge上取得的成绩表明,深度学习现在可以迎接更具有挑战性的任务,例如视频解释,场景描述(参考Google’s Brain-Inspired Software Describes What It Sees in Complex Images。Wu说,它们现在的工作,一方面考虑如何使得Minwa更强大,来处理视频和文本;另一方面百度的研究者也在做神经网络瘦身的工作,使得神经网络能够在移动设备上运行。

他演示了一个智能手机App的原型,使用在Minwa上训练得到的网络的精简版,来识别不同品种的狗狗。“事实上,如果你懂得挖掘手机GPU的计算能力,你就可以通过照相机来识别空中的物体”。

Links:Baidu’s Artificial-Intelligence Supercomputer Beats Google at Image Recognition