近日,我校信息与控制工程学院硕士研究生靳杨在国际顶级会议ECCV上发表题为“ Boosting Gaze Object Prediction via Pixel-level Supervision from Vision Foundation Model ”(基于视觉基础模型的像素级监督增强的凝视物体预测)的学术研究论文。靳杨为论文的第一作者,西安建筑科技大学为第一完成单位。
人类凝视的物体包含非常重要的语义信息,能够揭示一个人的行为和心理状态。因此,识别人类注视的物体在现实世界中能够被广泛应用于自闭症筛查、视觉障碍诊断、辅助驾驶等场景。然而,以往的方法通常使用框级别的监督去学习判别被人类凝视的物体,在物体密集场景下同一个框中可能包含多个物体,难以在物体密集场景下精确区分目标,导致语义模糊问题凸显。
针对此问题,论文引入了视觉基础模型以提供像素级监督,并提出了挑战性的凝视物体分割任务。该任务旨在精确识别并提取出被人类凝视行为锁定的物体的像素级掩码,从而构建出语义清晰、边界明确的表征。论文设计了一个端到端的一体化凝视物体检测与分割框架,该框架不依赖额外的头部输入,能够并行地处理凝视估计、目标检测及实例分割三大任务。此外,论文还提出一种空间到物体的凝视回归方法来增强检测分支和凝视分支之间的交互,逐步提升人—物凝视关系的建模,从而实现清晰的凝视定位。在GOO-Synth和GOO-Real数据集上的大量实验证明了提出方法的有效性。
ECCV,全称European Conference on Computer Vision(欧洲计算机视觉国际会议),是计算机视觉领域内最具权威性和影响力的国际学术会议之一,与ICCV和CVPR并称为计算机视觉领域的“三大顶会”。ECCV每两年举办一次,汇聚了全球顶尖的学者、研究人员及行业专家,共同探讨计算机视觉技术的最新进展与未来趋势。该研究得到了西北工业大学自动化学院与北京大学通用人工智能国家重点实验室的合作支持。
论文链接:https://arxiv.org/abs/2408.01044