兄弟们,这周AI圈又没消停。先看开源这边,Mistral放了个7B新模型,跑MMLU跟GPT-4五五开,还有更离谱的Hugging Face上那个DeciLM,参数少了三分之一,长文本推理直接干翻Llama 2 70B。🤯 之前说小模型不行的人,现在可以闭嘴了。
部署这块也在卷。vLLM上周放出0.3.0,支持了SGLang和连续批处理,显存利用率又提了10%。但别急着升,老版本的PagedAttention跟新调度器有兼容坑,建议先在测试环境跑一遍。TensorRT-LLM也更新了,多卡推理延迟降了15%,但配置起来还是麻烦,没vLLM省心。
使用上,Llama 3还没出,但社区已经用Mistral+LoRA微调出一堆垂直模型,比如CodeMistral写代码比原版强30%。想自己玩的,建议用Qwen-14B做基座,中文效果稳,配合AutoAWQ量化,单张3090就能跑。📈
最后问个问题:你觉得开源小模型今年真能追上闭源大模型吗?还是说又一轮赛博耍猴?评论区聊聊。 |