兄弟们,最近AI圈又出大瓜了。Qwen2.5系列刚更新,72B版本在数学和代码评测上直接干翻Llama-3.1-70B,而且全系开源。更骚的是,官方还放出了GGUF格式的量化版,现在用ollama拉下来,16GB显存的消费级卡就能本地跑70B模型,推理速度居然还能接受。这不是让炼丹成本直接打对折?
部署方面,vLLM 0.6.0刚支持了多模态流水线,图像+文本输入不用再分开写pipeline了。实测Qwen-VL-7B在单个A100上吞吐量比上个月提升了40%。不过注意,这版本需要改torch版本到2.4以上,老环境直接炸,记得先看兼容性。
使用技巧:微调别老盯着LoRA了。QLoRA + DoRA的组合最近热度很高,参数量少30%的情况下,在AlpacaEval上跑分反而高了1.2%。训练时记得把rope scaling打开,长文本任务效果立竿见影。
说实话,现在模型迭代比显卡换代还快,但落地质量还是参差不齐。你们实际项目里,哪个开源模型踩坑最多?比如Llama-3.1的幻觉问题,Qwen的上下文窗口溢出现象,欢迎来评论区对线。 |