四川大学提出Test-time Adaptation新范式，突破查询偏移挑战

在 NeurIPS 2024 大会上，OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 在其主题报告中展望了基础模型的未来研究方向，其中包括了 Inference Time Compute [1]，即增强模型在推理阶段的能力，这也是 OpenAI o1 和 o3 等核心项目的关键技术路径。

作为 Inference Time Compute 的重要方向之一，Test-time Adaptation（TTA）旨在使预训练模型动态适应推理阶段中不同分布类型的数据，能够有效提高神经网络模型的分布外泛化能力。

然而，当前 TTA 的应用场景仍存在较大局限性，主要集中在单模态任务中，如识别、分割等领域。

近日，四川大学 XLearning 团队将 TTA 拓展至跨模态检索任务中，有效缓解了查询偏移（Query Shift）挑战的负面影响，有望推动 Inference time compute 向跨模态应用发展。

目前，该论文已被机器学习国际顶会 ICLR 2025 接收并评选为 Spotlight（入选比例 5.1%）。

背景与挑战

跨模态检索旨在通过构建多模态共同空间来关联不同模态的数据，在搜索引擎、推荐系统等领域具有重要的应用价值。如图 1 (a) 所示，现有方法通常基于预训练模型来构建共同空间，并假设推理阶段的查询数据与训练数据分布一致。然而，如图 1 (b) 所示，在现实场景中，用户的查询往往具有高度个性化的特点，甚至可能涉及不常见的需求，导致查询偏移（Query Shift）挑战，即模型推理时查询数据与源域数据的分布显著不同。

图 1：(a) 主流范式：利用预训练模型 Zero-shot 检索或者 Fine-tune 后检索。(b) 导致查询偏移的原因：难以对数据稀缺的领域进行微调；即使微调模型，也会面临 “众口难调” 的问题。(c) 观察：查询偏移会降低模态内的均匀性和增大模态间的差异。

如图 1 (c) 所示，本文观察到，查询偏移不仅会破坏查询模态的均匀性（Modality Uniformity），使得模型难以区分多样化的查询，还会增大查询模态与候选模态间的差异（Modality Gap），破坏预训练模型构建的跨模态对齐关系。这两点都会导致预训练模型在推理阶段的性能急剧下降。

尽管 TTA 作为能够实时应对分布偏移的范式已取得显著成功，但现有方法仍无法有效应对查询偏移挑战。一方面，当前 TTA 范式面向单模态任务设计，无法有效应对查询偏移对模态内分布和模态间对齐关系的影响。另一方面，现有 TTA 方法主要应用于识别任务，无法应对检索任务中的高噪声现象，即候选项远大于类别数量会导致更大的错误几率。

免责声明：本站内容均来源于网络，仅供娱乐与资讯参考，不代表本站立场。文章版权归原作者所有，如有侵权请联系删除，相关数据请自行核实。