大模型这周又炸了：开源7B追平GPT-4，推理框架卷出新高度

显示全部楼层

兄弟们，这周AI圈又没消停。先看开源这边，Mistral放了个7B新模型，跑MMLU跟GPT-4五五开，还有更离谱的Hugging Face上那个DeciLM，参数少了三分之一，长文本推理直接干翻Llama 2 70B。🤯 之前说小模型不行的人，现在可以闭嘴了。

部署这块也在卷。vLLM上周放出0.3.0，支持了SGLang和连续批处理，显存利用率又提了10%。但别急着升，老版本的PagedAttention跟新调度器有兼容坑，建议先在测试环境跑一遍。TensorRT-LLM也更新了，多卡推理延迟降了15%，但配置起来还是麻烦，没vLLM省心。

使用上，Llama 3还没出，但社区已经用Mistral+LoRA微调出一堆垂直模型，比如CodeMistral写代码比原版强30%。想自己玩的，建议用Qwen-14B做基座，中文效果稳，配合AutoAWQ量化，单张3090就能跑。📈

最后问个问题：你觉得开源小模型今年真能追上闭源大模型吗？还是说又一轮赛博耍猴？评论区聊聊。