阅读历史 |

第619章 背景肯定也不简单(2 / 2)

加入书签

「其实我之前一直很发愁。」郭长征叹了口气,「你知道搞我们这一行的痛点在哪里。」

「数据。」楚一航脱口而出,直接指出了核心问题。

「没错,就是数据。」郭长征拍了一下大腿。

「算法逻辑写得再好,没有海量的数据去投喂,最后训练出来的模型就是个弱智。」郭长征抱怨道。

楚一航深有同感地点头。

「图像识别这个领域,现在学术界主流还在搞特徵工程,用支持向量机那些老套路。」郭长征继续说道。

「大家都在手工提取图像特徵,效率极低,而且准确率一直上不去。」

「我认定神经网络才是未来,但是苦于没有一个庞大且标注清晰的图像资料库。」

郭长征说到这里,语气突然变得兴奋起来。

「不过,我今天下午查资料的时候,发现了一个绝佳的契机。」

「什么契机?」楚一航也被勾起了好奇心。

「美国那边有个叫李飞飞的华裔教授,她搞了一个庞大的项目,叫ImageNet。」郭长征说道。

此时,有必要详细拆解一下这个名为ImageNet的庞然大物。

在2009年这个时间节点,人工智慧正处于一个不上不下的尴尬期。

传统的专家系统和逻辑推演已经走到了死胡同。

机器学习虽然兴起,但大部分学者都在研究如何精雕细琢算法本身。

大家都在追求用最少的数据,通过最复杂的数学公式来实现目标。

这种思路在当时是绝对的主流。

但李飞飞的思路截然相反。

她认为,想要让计算机认出一只猫,不应该去教计算机猫有几根胡子丶耳朵呈什么角度。

而是应该直接给计算机看几百万张猫的照片。

只要看得足够多,计算机自己就能总结出规律。

这个思路在当时被很多传统学术界的大牛嘲笑。

因为收集并标注几百万丶上千万张图片,是一项非常繁琐丶耗时且看起来毫无技术含量的体力活。

但这恰恰是深度学习爆发的绝对前提条件。

ImageNet项目就是在这个背景下诞生的。

这个项目致力于构建一个包含数千万张图片的庞大资料库。

并且每一张图片都要经过人工的精准标注。

比如这张图片里是一只狗,那张图片里是一辆车。

为了完成这庞大的工作量,李飞飞团队甚至动用了亚马逊的众包平台。

雇佣了全球各地成千上万的网络劳工,在线为这些图片打标签。

这是一个疯狂且伟大的工程。

郭长征向楚一航详细复述了他今天查阅到的关于ImageNet的资料。

楚一航听完,眼睛亮了起来。

「这思路太超前了。」楚一航赞叹道。

「大力出奇迹,用绝对的数据量去碾压算法的不足,这非常符合我们课题的暴力美学。」楚一航给出了极高的评价。

「对吧!」郭长征见楚一航认同,更加激动了。

「这个数据集已经初具规模,包含了大量标注好的图片。」郭长征拿过旁边的公文包,掏出一份列印出来的资料。

「而且,我得到确切消息,过段时间,他们会基于这个数据集,举办第一届大规模视觉识别挑战赛。」

郭长徵用手指重重地敲击着列印纸上的比赛信息。

「这就太有意思了。」楚一航拿过资料看了起来。

「有了这个数据集,我课题的数据来源问题就彻底解决了。」郭长征满脸兴奋。

「这就省去了我们自己在实验室里苦哈哈去收集图片丶打标签的工作。」

「而且最关键的是,这个比赛提供了一个绝对公平丶公开的测试平台。」

↑返回顶部↑

书页/目录