在 NeurIPS 2024 大会上,OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 在其主题报告中展望了基础模型的未来研究方向,其中包括了 Inference Time Compute [1],即增强模型在推理阶段的能力,这也是 OpenAI o1 和 o3 等核心项目的关键技术路径。

作为 Inference Time Compute 的重要方向之一,Test-time Adaptation(TTA)旨在使预训练模型动态适应推理阶段中不同分布类型的数据,能够有效提高神经网络模型的分布外泛化能力。

然而,当前 TTA 的应用场景仍存在较大局限性,主要集中在单模态任务中,如识别、分割等领域。

近日,四川大学 XLearning 团队将 TTA 拓展至跨模态检索任务中,有效缓解了查询偏移(Query Shift)挑战的负面影响,有望推动 Inference time compute 向跨模态应用发展。

目前,该论文已被机器学习国际顶会 ICLR 2025 接收并评选为 Spotlight(入选比例 5.1%)。

背景与挑战

跨模态检索旨在通过构建多模态共同空间来关联不同模态的数据,在搜索引擎、推荐系统等领域具有重要的应用价值。如图 1 (a) 所示,现有方法通常基于预训练模型来构建共同空间,并假设推理阶段的查询数据与训练数据分布一致。然而,如图 1 (b) 所示,在现实场景中,用户的查询往往具有高度个性化的特点,甚至可能涉及不常见的需求,导致查询偏移(Query Shift)挑战,即模型推理时查询数据与源域数据的分布显著不同。

图 1:(a) 主流范式:利用预训练模型 Zero-shot 检索或者 Fine-tune 后检索。(b) 导致查询偏移的原因:难以对数据稀缺的领域进行微调;即使微调模型,也会面临 “众口难调” 的问题。(c) 观察:查询偏移会降低模态内的均匀性和增大模态间的差异。

如图 1 (c) 所示,本文观察到,查询偏移不仅会破坏查询模态的均匀性(Modality Uniformity),使得模型难以区分多样化的查询,还会增大查询模态与候选模态间的差异(Modality Gap),破坏预训练模型构建的跨模态对齐关系。这两点都会导致预训练模型在推理阶段的性能急剧下降。

尽管 TTA 作为能够实时应对分布偏移的范式已取得显著成功,但现有方法仍无法有效应对查询偏移挑战。一方面,当前 TTA 范式面向单模态任务设计,无法有效应对查询偏移对模态内分布和模态间对齐关系的影响。另一方面,现有 TTA 方法主要应用于识别任务,无法应对检索任务中的高噪声现象,即候选项远大于类别数量会导致更大的错误几率。

免责声明:本站内容均来源于网络,仅供娱乐与资讯参考,不代表本站立场。文章版权归原作者所有,如有侵权请联系删除,相关数据请自行核实。