着相似的目标前进。我还想讲述一个很有趣的技术问题或者说一个关于像素的技术故事。 很多从事语言研究的人可能不知道在生成 时代之前我们这些从事计算机视觉领域的人实际上有一个很长的历史叫做 重建的研究。 这可以追溯到上世纪年代你可以通过拍摄照片——因为人类有两只眼睛所以可以用立体照片来尝试三角测量构建 形状。然而这是一个非常难的问题至今尚未完全解决因为存在匹配问题等复杂情况。 这个领域有着长期的进展但是当 和生成方法结合尤其是在扩散模型的背景下 重建与生成突然开始融合。
在计算机视觉领域内我们突然发现如果我们看到某个东西或者想象某个东西二者都可以汇聚到生成它的方向。这是一个非常重要的时刻但很多人可能没有注意到这一点因为我们没有像谈论 那样广泛讨论它。 对在像素空间中有重建例如 阿尔巴尼亚 whatsapp 数据 你重建一个真实的场景;而如果你看不到那个场景则会使用生成技术。这两者实际上是非常相似的。整个对话中你一直在谈论语言和像素或许这是一个好时机来讨论空间智能与语言方法的对比比如它们是互补的还是完全不同的? 我认为它们是互补的。我不确定如何定义“完全不同”但我可以尝试做个对比。如今很多人都在谈论、开放 以及多模态模型。
大家觉得这些模型既能处理像素也能处理语言。那么它们是否能实现我们想要的空间推理呢?为了回答这个问题我们需要打开这些系统的“黑箱”看看它们是如何在底层工作的。 语言模型和我们现在看到的多模态语言模型其底层的表示是“一维的”。我们谈论上下文长度、 、序列、注意力机制但归根结底这些模型的表示是基于一维的序列化令牌。 这种表示在处理语言时是非常自然的因为文本本身就是由一维的离散字母序列组成的。这种一维表示是 成功的基础现在我们看到的多模态 也是如此它们将其他模态(如图像)“硬塞进”这种一维的表示中。 而在空间智能领域我们的思路正好相反——我们认为世界的三维本质应该成为表示的核心。