多模态 (Multimodal)

GPT-4o：端到端多模态标杆

GPT-4o 是 OpenAI 的端到端多模态模型，"o"代表 Omni（全能）。不同于传统的拼接式架构，它在单一神经网络中统一处理文本、图像、音频，实现真正的跨模态理解和生成。在视觉理解、数学推理、语言理解等基准上全面领先，是 2025 年商业多模态模型的事实标准。

见：GPT-4o 技术报告 | GPT-4o vs Gemini 对比

Gemini 1.5 Pro：长上下文多模态王者

Google DeepMind 的 Gemini 1.5 Pro 支持百万级 Token 上下文，可一次性处理数小时视频、整本书籍或多张高分辨率图像。采用 Mixture-of-Experts (MoE) 架构，在多模态推理和长文档理解上表现优异，是企业级多模态应用的首选。

见：Gemini 1.5 Pro 技术报告

Qwen2.5-VL：开源视觉语言模型领先者

阿里云的 Qwen2.5-VL 系列是开源视觉语言模型的标杆，覆盖 3B 到 72B 参数规模。支持图像、视频、文档理解，在 OCR、图表解析、视觉推理等任务上媲美商业模型。2025 年推出的 Qwen3-VL 进一步提升了多模态推理能力，是开源社区的首选方案。

见：Qwen2.5-VL GitHub | Qwen3-VL 介绍

LLaVA-NeXT：学术界的开源先锋

LLaVA（Large Language and Vision Assistant）将 CLIP 视觉编码器与 LLM 连接，开创了开源视觉问答的先河。LLaVA-NeXT 支持更高分辨率（336x336+）、多帧视频理解、LoRA 微调。2025 年的 LLaVA-OneVision 进一步优化了视频理解能力，是学术研究和快速原型开发的首选。

见：LLaVA-NeXT GitHub | LLaVA-OneVision 论文

生成模型：Stable Diffusion 与 AudioCraft

Stable Diffusion 3 是开源文本到图像生成的标杆，采用改进的 Diffusion 架构，支持 ControlNet 可控生成和 LoRA 快速定制。AudioCraft 是 Meta 的音频生成套件，包含 MusicGen（文本生成音乐）、AudioGen（文本生成音效）和 EnCodec（神经音频编解码），开源了完整的音频生成流程。

见：Stable Diffusion | AudioCraft GitHub