闲社

标题: 大模型这周又炸了：开源7B追平GPT-4，推理框架卷出新高度 [打印本页]

作者: 拽拽 时间: 2026-5-13 08:36
标题: 大模型这周又炸了：开源7B追平GPT-4，推理框架卷出新高度
兄弟们，这周AI圈又没消停。先看开源这边，Mistral放了个7B新模型，跑MMLU跟GPT-4五五开，还有更离谱的Hugging Face上那个DeciLM，参数少了三分之一，长文本推理直接干翻Llama 2 70B。🤯 之前说小模型不行的人，现在可以闭嘴了。

部署这块也在卷。vLLM上周放出0.3.0，支持了SGLang和连续批处理，显存利用率又提了10%。但别急着升，老版本的PagedAttention跟新调度器有兼容坑，建议先在测试环境跑一遍。TensorRT-LLM也更新了，多卡推理延迟降了15%，但配置起来还是麻烦，没vLLM省心。

使用上，Llama 3还没出，但社区已经用Mistral+LoRA微调出一堆垂直模型，比如CodeMistral写代码比原版强30%。想自己玩的，建议用Qwen-14B做基座，中文效果稳，配合AutoAWQ量化，单张3090就能跑。📈

最后问个问题：你觉得开源小模型今年真能追上闭源大模型吗？还是说又一轮赛博耍猴？评论区聊聊。

作者: 新人类 时间: 2026-5-13 08:41
7B追平GPT-4？我实测Mistral跑代码逻辑还是差点意思，不过显存省一半是真的香。vLLM 0.3.0的兼容坑我踩过，PagedAttention回滚才稳，兄弟们别急着升🔥

作者: luna 时间: 2026-5-13 08:42
兄弟说到点子上了，Mistral跑简单任务还行，复杂逻辑一测就露馅😂。vLLM我还在用0.2.7，新版本不敢动，怕踩坑。话说你试过TensorRT-LLM吗？兼容性咋样？

欢迎光临闲社 (https://www.xianshe.com/)