参考

https://www.zhihu.com/search?type=content&q=%E5%A4%9A%E6%A8%A1%E6%80%81%20%E8%A7%A3%E8%AF%BB

SLIP DeCLIP BLIP ALBEF

多模态大模型 (MLLM) 核心研究进展全景综述

1. 发展简史：从“特征匹配”到“世界理解”

多模态技术的发展经历了从特定任务建模到通用智能的跨越，其演进脉络清晰地展现了模型“理解力”的提升：

判别式对齐时期 (2021-2022)： CLIP 的出现是里程碑，它通过大规模对比学习将图文映射到统一空间。随后 BLIP、ALBEF 等模型通过引入更复杂的损失函数（如 ITM, LM）进一步强化了细粒度对齐。
生成式大模型时期 (2023-2024)： LLaVA 开创了将预训练 ViT 与开源 LLM（如 Llama）通过简单投影层对接的范式。InstructBLIP 等模型开始引入指令微调。
高分辨率与原生多模态时期 (2024-2025)： 随着 GPT-4o、Qwen-VL 的发布，研究重点转向了 AnyRes（任意分辨率处理）和原生多模态架构，旨在解决视觉细节丢失和模态间深层融合的问题。

2. 视觉表示学习代表模型

这些模型作为 MLLM 的“感知器”，负责提供高质量的视觉特征：

模型	核心设计	优势与特性	适用场景
CLIP	双塔架构 + 对比学习	极强的 Zero-shot 迁移能力。	图像分类、图文检索。
SLIP / DeCLIP	引入自监督信号	提高数据利用率，特征更具鲁棒性。	小规模数据集训练。
ALBEF	动量队列 + 跨模态注意力	解决了图文对中噪声数据的影响。	细粒度对齐任务。
BLIP (早期)	Encoder-Decoder 统一架构	能够通过自举（Bootstrapping）清洗网络噪声数据。	图像描述、图文匹配。

3. BLIP 的核心损失函数解析

参考：https://zhuanlan.zhihu.com/p/627481137

BLIP (Bootstrapping Language-Image Pre-training) 的成功很大程度上归功于其联合优化的三个目标函数：

ITC (Image-Text Contrastive Loss)：

逻辑： 类似于 CLIP，通过对比学习拉近配对的图文特征，推开不匹配的。
作用： 学习全局的模态对齐。

ITM (Image-Text Matching Loss)：

逻辑： 一个二分类任务，预测给定的图片和文本是否真正匹配。
作用： 强迫模型通过跨模态注意力（Cross-Attention）去捕捉局部细节，实现细粒度理解。

LM (Language Modeling Loss)：

逻辑： 给定图片，自回归地生成对应的文本描述。
作用： 赋予模型生成能力，使其能够根据视觉线索产出连贯的自然语言。

4. 多模态大模型代表模型与技术差异

A. 标志性模型架构

LLaVA: 采用 Linear Projection（输入层拼接）。其核心贡献在于将多模态数据转化为“视觉单词”，直接喂给 LLM。
Qwen-VL: 引入了 Visual Resampler。它能将高分辨率产生的数千个 Token 压缩为固定数量的有效 Token，平衡了细节与计算量。
Flamingo: 使用 Gated Cross-Attention。在 LLM 的层间插入视觉注入层，保持了 LLM 原始的语言能力。

B. 关键进阶技术：AnyRes 与 Deepstack

为了处理现实世界中复杂的视觉输入，以下技术成为了当前主流：

AnyRes (Any Resolution)：
核心逻辑： 传统的 ViT 通常只能处理固定的低分辨率输入（如）。AnyRes 技术（如在 LLaVA-NeXT 中应用）将原始高分辨率图片切分成多个子图（Patches）分别编码，并保留一个缩略总图提供全局信息。
优势： 显著提升了模型对高清图像、小文字（OCR）和微小对象的识别能力。

Deepstack (深度堆叠)：
核心逻辑： 这种技术旨在解决多模态特征在进入 LLM 后的“被稀释”问题。它通过在 LLM 的多个层级（而非仅输入层）重复注入或堆叠视觉特征。
优势： 增强了视觉信息的持久性，确保模型在处理长文本回复时，末尾的内容依然能紧扣开头的视觉细节。

5. 常见训练方法归纳

预训练 (Pre-alignment)：

逻辑： 冻结两头，只练中间。学习从视觉空间到语言空间的线性映射。

指令微调 (Instruction Tuning)：

逻辑： 使用高质量对话数据训练。重点在于让模型学会“回答格式”和“复杂逻辑推理”。

多任务联合训练：

逻辑： 同时喂入检测、分割、描述等任务。
场景： 提升模型的定位（Grounding）能力，例如让模型能说出物体在图中的坐标。

DPO (Direct Preference Optimization)：

逻辑： 针对多模态幻觉进行优化，让模型在“正确回答”和“虚假回答”中学会选择前者。

6. 技术演进规律提炼

分辨率革命： 从固定低像素到 AnyRes 动态切片。
融合深度： 从简单的输入拼接（Projection）到层间深度堆叠（Deepstack/Cross-Attention）。
数据范式： 从海量噪声数据（CLIP 时代）到精细化的人工指令数据（MLLM 时代）。

结语： 多模态大模型的研究正处于从“看图说话”向“视觉专家”转变的关键期。掌握 BLIP 的对齐机制是基础，而理解 AnyRes 等高阶视觉增强技术则是进阶当前前沿架构的关键。

Hexo

多模态学习资料汇总

参考