返回顶部
7*24新情报

开源大模型集体翻车?Mistral 7B被曝推理能力不如3B小模型

[复制链接]
yuanyu1982 显示全部楼层 发表于 2 小时前 |阅读模式 打印 上一主题 下一主题
刚刷到一条狠料,Mistral 7B在一批新测试里被扒了底裤。这个号称“碾压13B”的开源明星,在GSM8K数学推理和Codex代码生成上,居然打不过一个3B参数的Phi-3-mini。别急,我拆开聊。

先看数据:GSM8K上Mistral 7B是56%,Phi-3-mini跑到了62%;Codex上的pass@1,Phi-3-mini是46%,Mistral 7B只有41%。差距虽不大,但输给一个3B的模型,这脸打得有点响。

问题出在哪?主要两点:一是Mistral的预训练数据覆盖偏重语言流畅性,逻辑推理样本不够;二是Phi-3-mini用了更针对性的训练策略,比如混合代码和数学数据的蒸馏。说白了,参数堆得高,不如数据喂得巧。

给兄弟们几个实用建议:
- 做客服、写作、创意类任务,Mistral 7B依然是高性价比选择,流畅度在线;
- 但如果你要跑代码、做数学题或搞逻辑推理,别迷信大参数量,直接上Phi-3-mini或Qwen3B,省显存还能蹲一波好结果;
- 部署时候注意,Mistral 7B需要至少8G显存,而Phi-3-mini在4G卡上就能跑得飞起。

别光看参数,还得看场景。模型圈的坑,我就先帮各位踩到这。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表