Llama 4发布：我看到了DeepSeek的影子

MoE 大概就是这样

过去，MoE 更多还是“实验室选项”，自 DeepSeek 大火后，很多厂商开始尝试将其用于主力模型，比如这次的 Meta。在 Llama 4 中，模型 Scout 配置 16 专家，而 Maverick 则是 128 专家，推理时都只激活两个，17B的量。

回顾一下，DeepSeek 在 R1 和 V3 中也是类似：671B 总参数，37B 激活，用更可控的计算开销，换来模型能力密度的提升。

当然，得说一下，MoE 并不适合所有任务场景，也存在调度复杂、专家平衡等训练难题。但它至少打开了一个现实维度：参数使用方式，和参数数量本身一样值得被设计。

多模态：从外挂走向原生

Llama 3 时代，图像输入依赖外挂 encoder，与语言模型拼接；Llama 4 时代，图像直接作为 token 输入，参与语言上下文建模。

这意味着：图文不是模型之后拼出来的，而是在训练中就一体建模的语境单位。

这种结构带来的提升，在任务表现中非常直接：

Maverick 跑分成绩

而原生多模态架构也体现在 Scout 身上——虽然是轻量模型，但在 DocVQA、ChartQA 上，Scout 依然打出了高于同尺寸模型（甚至部分大模型）的稳定表现。

Scout 跑分成绩

此处说一下， DeepSeek 的 V3/R1 仍未引入图像 token。

训练转向：大模型是过程

Behemoth 最大号的 Llama4，很强，但它不对外。

Behemoth：这是个不对外的模型

Behemoth的全部作用，是生成训练数据，为 Scout 和 Maverick 提供能力示范，并通过轻量 DPO 和 RLHF 进一步优化行为。换句话说，Meta 并不再执着于“最强模型”上线，而是选择把最大资源投入到训练系统本身。

这个事儿，有点像：

《DeepSeek-V3 Technical Report》

不是封神，而是转向

在我看来，Llama 4 并没有带来参数最大、能力最强的单点突破。但它用一个更完整、更分工明确的体系，回应了模型设计正在发生的变化：

Scout 是部署，Maverick 是交付，Behemoth 是理解力的源头。

与其说是一次产品发布，更像是宣告一次路线调整。

还没有评论，来说两句吧...