提速199倍!清华哈佛推出LangSplat,根据文本快速找出目标

AIGC最新资讯7个月前发布 AiBots
40 0 0
提速199倍!清华哈佛推出LangSplat,根据文本快速找出目标

在这个三维世界中,文字不再局限于纸面或屏幕,而是如水墨一般能够在空间中自由流动。想象一下,当我们用语言描述万物时,文字能够直接在空气中泼洒开来,如同魔法般展现出我们的想象。

最近,清华大学和哈佛大学的顶尖学者们联手开发了一项名为LangSplat的黑科技。这项技术利用三维高斯泼溅技术,让文字不仅仅停留在平面上,而是能够在真实的三维空间中“活”动起来。这种创新使得我们能够通过开放文本查询方式,直接在现实世界中获取信息和互动,为探索和学习带来了全新的可能性。

LangSplat是基于3DGS的先进3D语言场方法,利用SAM和CLIP技术,在开放词汇的3D对象定位和语义分割任务中表现优异,比当前最先进的LERF方法快199倍。

提速199倍!清华哈佛推出LangSplat,根据文本快速找出目标

加州大学伯克利分校的研究人员在2023年3月展示了语言嵌入式辐射场(LERF)技术,将语言嵌入从现有模型(如CLIP)到NeRF中,使得能够在三维环境中准确识别物体,无需专门训练。

例如,你想在你家中迅速找到你可爱的小狗,只需要输入“小狗”即可。这项技术不仅适用于机器人技术和模拟机器人的视觉训练,还能增强人类与三维世界的互动能力。

提速199倍!清华哈佛推出LangSplat,根据文本快速找出目标

不过 LERF 的短板在于不适合实时搜索,且搜索结果准确率低。LangSplat 为了解决这个短板,使用 3D Gaussians 构建 3D 语言场,避免了 NeRFs 所需的复杂渲染过程,在 1440 x 1080 像素的分辨率下,LangSplat 比 LERF 快 199 倍。

LangSpla采用tile-based的三维高斯泼溅技术来渲染语义特征,从而避免了NeRF中计算成本高昂的渲染过程。首先训练特定场景下的语义自编码器,然后在场景特定的低维latent space上学习语义特征,而不是直接学习高维的CLIP语义特征,从而降低了计算量。

提速199倍!清华哈佛推出LangSplat,根据文本快速找出目标

现有基于NeRF的方法的三维语义场比较模糊,无法清晰地区分目标的边界。LangSplat 为了形成 3D 语言场,使用 Meta 的“分段任意模型”(Segment Anything Model –之前的文章介绍过)从场景的多幅图像中学习分层语义。具体来说,图像会被分解成边界清晰的不同物体掩码,而物体又会被进一步分解成整体、部分和子部分。

提速199倍!清华哈佛推出LangSplat,根据文本快速找出目标

LangSplat 利用 SAM 学习分层语义来解决点歧义问题。然后将片段掩码发送到 CLIP 图像编码器以提取相应的 CLIP 嵌入。使用这些获得的 CLIP 嵌入来学习自动编码器。

论文中展示了泡有茶叶的茶杯,LERF 标记的是两个杯子,而 LangSplat 标记的是杯子中的液体。在另一个例子中,它可以标记一碗拉面汤中的单个配料。

提速199倍!清华哈佛推出LangSplat,根据文本快速找出目标
© 版权声明

相关文章

暂无评论

暂无评论...