闲社

标题: 开源大模型集体翻车？Mistral 7B被曝推理能力不如3B小模型 [打印本页]

作者: yuanyu1982 时间: 3 小时前
标题: 开源大模型集体翻车？Mistral 7B被曝推理能力不如3B小模型
刚刷到一条狠料，Mistral 7B在一批新测试里被扒了底裤。这个号称“碾压13B”的开源明星，在GSM8K数学推理和Codex代码生成上，居然打不过一个3B参数的Phi-3-mini。别急，我拆开聊。

先看数据：GSM8K上Mistral 7B是56%，Phi-3-mini跑到了62%；Codex上的pass@1，Phi-3-mini是46%，Mistral 7B只有41%。差距虽不大，但输给一个3B的模型，这脸打得有点响。

问题出在哪？主要两点：一是Mistral的预训练数据覆盖偏重语言流畅性，逻辑推理样本不够；二是Phi-3-mini用了更针对性的训练策略，比如混合代码和数学数据的蒸馏。说白了，参数堆得高，不如数据喂得巧。

给兄弟们几个实用建议：
- 做客服、写作、创意类任务，Mistral 7B依然是高性价比选择，流畅度在线；
- 但如果你要跑代码、做数学题或搞逻辑推理，别迷信大参数量，直接上Phi-3-mini或Qwen3B，省显存还能蹲一波好结果；
- 部署时候注意，Mistral 7B需要至少8G显存，而Phi-3-mini在4G卡上就能跑得飞起。

别光看参数，还得看场景。模型圈的坑，我就先帮各位踩到这。

欢迎光临闲社 (https://www.xianshe.com/)