剪辑:LRST
【新智元导读】华中科技大学研发的UniSeg3D算法,能一次性完成三维场景中的六项分割任务,进步了场景贯通的全面性和效力。通过任务间的信息分享,优化了性能,为造谣本质和机器东说念主导航等界限带来新的处理有蓄意。
三维场景贯通在造谣本质和具身智能等本领中具有往常应用,迷惑了辩论者们的极大温暖。
3D点云分割任务是三维场景贯通中的遑急构成部分,涵盖了实例分割、语义分割和全景分割,以及交互式分割、参考分割和洞开词汇分割等子任务。
尽管针对相干任务的辩论依然取得引东说念主注议论进展,但现存辩论频频聚焦于单一任务界限,从而导致三维场景贯通局限于单一任务视角,冷漠了不同任务之间的内在关联性。
这种局限性为竣事全面的三维场景贯通带来了显赫的挑战。
为了处理上述问题,华中科技大学的辩论东说念主员提议了一种结伙的三维场景贯通算法UniSeg3D,通过一次推理完成六项3D点云分割任务,并通过构建任务间的显式关联来促进信息分享,从而增强性能推崇。
论文地址:https://arxiv.org/abs/2407.03263
技俩地址:https://dk-liang.github.io/UniSeg3D/
代码地址:https://github.com/dk-liang/UniSeg3D
实验扫尾标明,UniSeg3D在多个3D点云分割数据集上均取得了SOTA扫尾。
图1:3D点云分割界限的单一任务花式与结伙多任务花式
其主要包含如下的上风:
1. 多任务结伙:现时的3D点云分割花式频繁为单一任务设想,不同于现存的辩论责任,UniSeg3D通过一次推理粗略复古六种3D点云分割任务;
2. 性能优异:通过诞生任务间的显式关联,UniSeg3D在全景分割、语义分割、实例分割、交互式分割、参考分割和洞开词汇语义分割六个任务中均展现出SOTA性能;
3. 可膨胀性:收受query结伙表征多种点云分割任务的信息与特征,结构简易灵验。且通过输入新增任务的query表征,可将UniSeg3D拓展至更多任务,展现了框架的可膨胀性和天真性。
动机
三维场景贯通已成为机器东说念主本领、自主导航和搀杂本质等各类本质应用的基础。比年来,构建高效、精准的三维场景贯通算法成为热点辩论课题,但现存花式频繁专注于单一子任务,并为特定任务场景进行定制化模子设想。
然则,由于单一任务算法只可竣事单一任务展望,在应用于多任务场景时,需要登程点多种单一任务花式以竣事多任务展望,带来了较高的算力需求。且单一任务花式败落其他子任务算法的场景贯文书识,进攻了全面的三维场景贯通。为了处理这一问题,一些辩论者探索构建结伙三维场景贯通算法,并取得了一定的后果。
但现时花式不具备对用户提醒信息的贯通能力,不复古交互式分割、参考分割、洞开词汇分割任务,截至其东说念主机交互后劲;且用户提醒信息包含三维场景先验信息,可灵验提高三维场景贯通算法的可靠性,败落对用户提醒信息的贯通能力将截至算法的灵验性。
针对上述问题,著述提议了一种结伙三维场景贯通算法UniSeg3D,用于提高多任务应用场景中的场景贯通效力。
花式
UniSeg3D主要由三个模块构成:点云Backbone、Prompt编码器和掩膜解码器。其中,点云Backbone索取输入三维场景的点云特征;
Prompt编码器包含文本提醒编码器与视觉提醒编码器,文本提醒编码器索取文本特征,而视觉交互分割中的Prompt特征通过采样点云特征取得,将索取后的特征信息送入掩膜解码器中取得不同任务的分割扫尾。
模子全体结构如下图所示:
图2:UniSeg3D全体框架图
算法收受Query结伙表征三维场景信息、视觉提醒信息和文本提醒信息。
编码自不同信息的Query佩带相反性的场景常识,将其不加分别地送入掩膜解码器会镌汰掩膜解码器对相反性场景信息的感知能力,因此UniSeg3D把柄信息开首不同为Query重复不同的Embedding,从而促进掩膜解码器对三维场景信息、视觉提醒信息和文本提醒信息的信息索取性能。
掩膜生成过程对六个任务收受结伙的掩膜解码器以及输出Head,未对特定任务进行定制化的模块设想,全体进程简易灵验。
在之前的辩论责任中,忽略了各个任务间的关联,导致每个任务只温暖其任务特定的常识,败落对其他任务信息的感知能力,截至了全面而深切的三维场景贯通。
为克服以上劣势,本辩论收受对比学习和常识蒸馏诞生了不同任务间的显式辩论,促进深脉络的三维场景贯通。
图3:任务间常识蒸馏标的以及显式关联关系
对比学习:关于参考分割任务,当多个步地交流的物体相邻陈设时,容易出现歧义问题,如上图(a)所示。因此引入基于ranking的对比学习神色,即行使交互式分割的特征与参考分割任务的特征进行对比学习从而诞生显式关联,如上图(b)所示。
常识蒸馏:鉴于视觉交互式分割所展现出的优异性能,如上图(c)所示,行使交互式分割任务的展望mask和分类logits分别对全景分割任务的展望mask和参考分割任务输出的类别logits进行监督不断,从而竣事性能优化。
实验扫尾
表1:多任务结伙的挑战性
辩论东说念主员领先征询在单一模子中结伙多任务所濒临的挑战。全景分割、语义分割、实例分割、洞开词汇分割、参考分割、交互式分割分别由Pan.、Sem.、Inst.、OV、Ref.、Inter.示意。
如表1所示,按序将交互式分割、参考分割和洞开词汇分割肤浅地加入到框架中构建结伙模子基线时,会不雅察到算法在全景分割、实例分割任务上呈现性能下跌。这标明均衡多任务性能具有显赫挑战性。
尽管如斯,辩论东说念主员以为在单一模子中竣事多任务具有遑急辩论价值,因为这粗略减少狡计资源浪费,故意于本质应用。
因此,UniSeg3D提议通过诞生任务间显露关联来竣事多任务联接优化,缓解多任务结伙带来的性能下跌,后续实验标明这是一个有价值的探索标的。
辩论东说念主员在ScanNet20、ScanRefer和ScanNet200数据集上进行评估测试,在全景分割、语义分割、实例分割、洞开词汇分割、交互式分割和参考分割任务中,UniSeg3D均取得SOTA推崇,这标明UniSeg3D在结伙3D点云分割任务上的灵验性:
表2:3D点云分割任务上性能对比
下图展示了UniSeg3D在六种3D点云分割任务上的可视化扫尾。
转头
UniSeg3D看成首个在三维场景贯通中集成六大分割任务的模子,为三维场景贯通提供了一个天真而高效的处理有蓄意。往日的特定任务的花式难以索取跨任务信息,进攻了全面的三维场景贯通。
比较之下,UniSeg3D充分行使了复古多任务的结构特质,通过诞生任务间的关联来提高模子性能,从而在各式基准任务中取得优异推崇。UniSeg3D为高效、精准的三维场景贯通提供新的处理有蓄意和可能念念路。