我认为我是机器学习领域的“本地人”而 的那一代是深度学习的“原住民”。 机器学习是深度学习的前身我们当时实验了各种模型。但在我博士结束时以及担任助理教授期间我的学生和我实验室意识到有一个被忽视的 元素在驱动着泛化能力这个领域当时并未深入思考那就是数据。我们当时专注于贝叶斯模型等复杂模型而忽略了让数据驱动模型的重要性。 这是我们押注 的原因之一。当时所有领域的数据集规模都很小计算机视觉和自然语言处理的标准数据集都是几千或几万条数据但我们意识到需要提升到互联网规模。 幸运的是互联网时代也正在崛起我们乘上了这股浪潮也正是在这个时候我来到了斯坦福。
如 显然是推动或至少是让计算机视觉在生成式 领域中流行并具备可行性的重要时代。我们通常会提到两个关键的突破:一个是 的论文即“注意力机制”()另一个是较少谈到的“稳定扩散”( )。 用这种方式来理解这两个来自学术界(尤其是谷歌)的算法突破是否合理?或者说这更是一个有意为之的过程?亦或是还有其他一些不常被提及的重大 土耳其 whatsapp 数据 突破也推动了我们走到今天? 是的我认为最大的突破在于计算能力。 我知道 的故事往往也是计算能力的故事但即便人们经常提到它我认为它的影响还是被低估了。 过去十年我们在计算能力上看到的增长是惊人的。
被认为是深度学习在计算机视觉领域突破性时刻的第一篇论文是 这是一篇 年的论文深度神经网络在 挑战赛中表现出色远超其他当时的算法。 在研究生期间你可能会接触到的那些算法和 相比相形见绌。 是一个拥有 万个参数的深度神经网络它在两张 显卡上训练了六天 是当时最强大的消费级显卡发布于 年。 我昨晚查了一些数据想把这些放在一个更大的背景中看待。英伟达最新的显卡是 你们猜一下 和 之间的计算能力差距有多大? 数量在几千左右所以我昨晚算了一下数据。