0%

多模态学习资料汇总

参考

https://www.zhihu.com/search?type=content&q=%E5%A4%9A%E6%A8%A1%E6%80%81%20%E8%A7%A3%E8%AF%BB

SLIP DeCLIP BLIP ALBEF


多模态大模型 (MLLM) 核心研究进展全景综述

1. 发展简史:从“特征匹配”到“世界理解”

多模态技术的发展经历了从特定任务建模到通用智能的跨越,其演进脉络清晰地展现了模型“理解力”的提升:

  • 判别式对齐时期 (2021-2022): CLIP 的出现是里程碑,它通过大规模对比学习将图文映射到统一空间。随后 BLIPALBEF 等模型通过引入更复杂的损失函数(如 ITM, LM)进一步强化了细粒度对齐。
  • 生成式大模型时期 (2023-2024): LLaVA 开创了将预训练 ViT 与开源 LLM(如 Llama)通过简单投影层对接的范式。InstructBLIP 等模型开始引入指令微调。
  • 高分辨率与原生多模态时期 (2024-2025): 随着 GPT-4oQwen-VL 的发布,研究重点转向了 AnyRes(任意分辨率处理)和原生多模态架构,旨在解决视觉细节丢失和模态间深层融合的问题。

2. 视觉表示学习代表模型

这些模型作为 MLLM 的“感知器”,负责提供高质量的视觉特征:

模型 核心设计 优势与特性 适用场景
CLIP 双塔架构 + 对比学习 极强的 Zero-shot 迁移能力。 图像分类、图文检索。
SLIP / DeCLIP 引入自监督信号 提高数据利用率,特征更具鲁棒性。 小规模数据集训练。
ALBEF 动量队列 + 跨模态注意力 解决了图文对中噪声数据的影响。 细粒度对齐任务。
BLIP (早期) Encoder-Decoder 统一架构 能够通过自举(Bootstrapping)清洗网络噪声数据。 图像描述、图文匹配。

3. BLIP 的核心损失函数解析

参考:https://zhuanlan.zhihu.com/p/627481137

BLIP (Bootstrapping Language-Image Pre-training) 的成功很大程度上归功于其联合优化的三个目标函数:

  1. ITC (Image-Text Contrastive Loss):
  • 逻辑: 类似于 CLIP,通过对比学习拉近配对的图文特征,推开不匹配的。
  • 作用: 学习全局的模态对齐。
  1. ITM (Image-Text Matching Loss):
  • 逻辑: 一个二分类任务,预测给定的图片和文本是否真正匹配。
  • 作用: 强迫模型通过跨模态注意力(Cross-Attention)去捕捉局部细节,实现细粒度理解。
  1. LM (Language Modeling Loss):
  • 逻辑: 给定图片,自回归地生成对应的文本描述。
  • 作用: 赋予模型生成能力,使其能够根据视觉线索产出连贯的自然语言。

4. 多模态大模型代表模型与技术差异

A. 标志性模型架构

  • LLaVA: 采用 Linear Projection(输入层拼接)。其核心贡献在于将多模态数据转化为“视觉单词”,直接喂给 LLM。
  • Qwen-VL: 引入了 Visual Resampler。它能将高分辨率产生的数千个 Token 压缩为固定数量的有效 Token,平衡了细节与计算量。
  • Flamingo: 使用 Gated Cross-Attention。在 LLM 的层间插入视觉注入层,保持了 LLM 原始的语言能力。

B. 关键进阶技术:AnyRes 与 Deepstack

为了处理现实世界中复杂的视觉输入,以下技术成为了当前主流:

  • AnyRes (Any Resolution):
  • 核心逻辑: 传统的 ViT 通常只能处理固定的低分辨率输入(如 )。AnyRes 技术(如在 LLaVA-NeXT 中应用)将原始高分辨率图片切分成多个子图(Patches)分别编码,并保留一个缩略总图提供全局信息。
  • 优势: 显著提升了模型对高清图像、小文字(OCR)和微小对象的识别能力。
  • Deepstack (深度堆叠):
  • 核心逻辑: 这种技术旨在解决多模态特征在进入 LLM 后的“被稀释”问题。它通过在 LLM 的多个层级(而非仅输入层)重复注入或堆叠视觉特征。
  • 优势: 增强了视觉信息的持久性,确保模型在处理长文本回复时,末尾的内容依然能紧扣开头的视觉细节。

5. 常见训练方法归纳

  1. 预训练 (Pre-alignment):
  • 逻辑: 冻结两头,只练中间。学习从视觉空间到语言空间的线性映射。
  1. 指令微调 (Instruction Tuning):
  • 逻辑: 使用高质量对话数据训练。重点在于让模型学会“回答格式”和“复杂逻辑推理”。
  1. 多任务联合训练:
  • 逻辑: 同时喂入检测、分割、描述等任务。
  • 场景: 提升模型的定位(Grounding)能力,例如让模型能说出物体在图中的坐标。
  1. DPO (Direct Preference Optimization):
  • 逻辑: 针对多模态幻觉进行优化,让模型在“正确回答”和“虚假回答”中学会选择前者。

6. 技术演进规律提炼

  • 分辨率革命: 从固定低像素到 AnyRes 动态切片。
  • 融合深度: 从简单的输入拼接(Projection)到层间深度堆叠(Deepstack/Cross-Attention)。
  • 数据范式: 从海量噪声数据(CLIP 时代)到精细化的人工指令数据(MLLM 时代)。

结语: 多模态大模型的研究正处于从“看图说话”向“视觉专家”转变的关键期。掌握 BLIP 的对齐机制是基础,而理解 AnyRes 等高阶视觉增强技术则是进阶当前前沿架构的关键。