参考
https://www.zhihu.com/search?type=content&q=%E5%A4%9A%E6%A8%A1%E6%80%81%20%E8%A7%A3%E8%AF%BB
SLIP DeCLIP BLIP ALBEF
多模态大模型 (MLLM) 核心研究进展全景综述
1. 发展简史:从“特征匹配”到“世界理解”
多模态技术的发展经历了从特定任务建模到通用智能的跨越,其演进脉络清晰地展现了模型“理解力”的提升:
- 判别式对齐时期 (2021-2022): CLIP 的出现是里程碑,它通过大规模对比学习将图文映射到统一空间。随后 BLIP、ALBEF 等模型通过引入更复杂的损失函数(如 ITM, LM)进一步强化了细粒度对齐。
- 生成式大模型时期 (2023-2024): LLaVA 开创了将预训练 ViT 与开源 LLM(如 Llama)通过简单投影层对接的范式。InstructBLIP 等模型开始引入指令微调。
- 高分辨率与原生多模态时期 (2024-2025): 随着 GPT-4o、Qwen-VL 的发布,研究重点转向了 AnyRes(任意分辨率处理)和原生多模态架构,旨在解决视觉细节丢失和模态间深层融合的问题。
2. 视觉表示学习代表模型
这些模型作为 MLLM 的“感知器”,负责提供高质量的视觉特征:
| 模型 | 核心设计 | 优势与特性 | 适用场景 |
|---|---|---|---|
| CLIP | 双塔架构 + 对比学习 | 极强的 Zero-shot 迁移能力。 | 图像分类、图文检索。 |
| SLIP / DeCLIP | 引入自监督信号 | 提高数据利用率,特征更具鲁棒性。 | 小规模数据集训练。 |
| ALBEF | 动量队列 + 跨模态注意力 | 解决了图文对中噪声数据的影响。 | 细粒度对齐任务。 |
| BLIP (早期) | Encoder-Decoder 统一架构 | 能够通过自举(Bootstrapping)清洗网络噪声数据。 | 图像描述、图文匹配。 |
3. BLIP 的核心损失函数解析
参考:https://zhuanlan.zhihu.com/p/627481137
BLIP (Bootstrapping Language-Image Pre-training) 的成功很大程度上归功于其联合优化的三个目标函数:
- ITC (Image-Text Contrastive Loss):
- 逻辑: 类似于 CLIP,通过对比学习拉近配对的图文特征,推开不匹配的。
- 作用: 学习全局的模态对齐。
- ITM (Image-Text Matching Loss):
- 逻辑: 一个二分类任务,预测给定的图片和文本是否真正匹配。
- 作用: 强迫模型通过跨模态注意力(Cross-Attention)去捕捉局部细节,实现细粒度理解。
- LM (Language Modeling Loss):
- 逻辑: 给定图片,自回归地生成对应的文本描述。
- 作用: 赋予模型生成能力,使其能够根据视觉线索产出连贯的自然语言。
4. 多模态大模型代表模型与技术差异
A. 标志性模型架构
- LLaVA: 采用 Linear Projection(输入层拼接)。其核心贡献在于将多模态数据转化为“视觉单词”,直接喂给 LLM。
- Qwen-VL: 引入了 Visual Resampler。它能将高分辨率产生的数千个 Token 压缩为固定数量的有效 Token,平衡了细节与计算量。
- Flamingo: 使用 Gated Cross-Attention。在 LLM 的层间插入视觉注入层,保持了 LLM 原始的语言能力。
B. 关键进阶技术:AnyRes 与 Deepstack
为了处理现实世界中复杂的视觉输入,以下技术成为了当前主流:
- AnyRes (Any Resolution):
- 核心逻辑: 传统的 ViT 通常只能处理固定的低分辨率输入(如 )。AnyRes 技术(如在 LLaVA-NeXT 中应用)将原始高分辨率图片切分成多个子图(Patches)分别编码,并保留一个缩略总图提供全局信息。
- 优势: 显著提升了模型对高清图像、小文字(OCR)和微小对象的识别能力。
- Deepstack (深度堆叠):
- 核心逻辑: 这种技术旨在解决多模态特征在进入 LLM 后的“被稀释”问题。它通过在 LLM 的多个层级(而非仅输入层)重复注入或堆叠视觉特征。
- 优势: 增强了视觉信息的持久性,确保模型在处理长文本回复时,末尾的内容依然能紧扣开头的视觉细节。
5. 常见训练方法归纳
- 预训练 (Pre-alignment):
- 逻辑: 冻结两头,只练中间。学习从视觉空间到语言空间的线性映射。
- 指令微调 (Instruction Tuning):
- 逻辑: 使用高质量对话数据训练。重点在于让模型学会“回答格式”和“复杂逻辑推理”。
- 多任务联合训练:
- 逻辑: 同时喂入检测、分割、描述等任务。
- 场景: 提升模型的定位(Grounding)能力,例如让模型能说出物体在图中的坐标。
- DPO (Direct Preference Optimization):
- 逻辑: 针对多模态幻觉进行优化,让模型在“正确回答”和“虚假回答”中学会选择前者。
6. 技术演进规律提炼
- 分辨率革命: 从固定低像素到 AnyRes 动态切片。
- 融合深度: 从简单的输入拼接(Projection)到层间深度堆叠(Deepstack/Cross-Attention)。
- 数据范式: 从海量噪声数据(CLIP 时代)到精细化的人工指令数据(MLLM 时代)。
结语: 多模态大模型的研究正处于从“看图说话”向“视觉专家”转变的关键期。掌握 BLIP 的对齐机制是基础,而理解 AnyRes 等高阶视觉增强技术则是进阶当前前沿架构的关键。