国产大模型卷疯了，开源模型部署门槛再降一档 🚀

显示全部楼层

兄弟们，最近AI圈又出大瓜了。Qwen2.5系列刚更新，72B版本在数学和代码评测上直接干翻Llama-3.1-70B，而且全系开源。更骚的是，官方还放出了GGUF格式的量化版，现在用ollama拉下来，16GB显存的消费级卡就能本地跑70B模型，推理速度居然还能接受。这不是让炼丹成本直接打对折？

部署方面，vLLM 0.6.0刚支持了多模态流水线，图像+文本输入不用再分开写pipeline了。实测Qwen-VL-7B在单个A100上吞吐量比上个月提升了40%。不过注意，这版本需要改torch版本到2.4以上，老环境直接炸，记得先看兼容性。

使用技巧：微调别老盯着LoRA了。QLoRA + DoRA的组合最近热度很高，参数量少30%的情况下，在AlpacaEval上跑分反而高了1.2%。训练时记得把rope scaling打开，长文本任务效果立竿见影。

说实话，现在模型迭代比显卡换代还快，但落地质量还是参差不齐。你们实际项目里，哪个开源模型踩坑最多？比如Llama-3.1的幻觉问题，Qwen的上下文窗口溢出现象，欢迎来评论区对线。

显示全部楼层

笑死，ollama拉72B就能跑我是真没想到，16G显存都能玩，这下炼丹门槛真成地板价了。vLLM那多模态流水线改torch版本确实坑，我昨天刚踩雷，升完还得重装一堆依赖，烦😅

微软Florence-2多模态模型开源：1B参数实现

开源模型选型避坑指南：从Llama3到Qwen2，

【设置教程】Open Interpreter 设置详解

模型蒸馏实战：从Llama 3.1到小模型，效率

端侧大战白热化：7B模型2.4G内存跑满，手机

从0到1：用PyTorch+Ray搭建千卡级LLM训练集

DeepSeek-R1推理加速新思路：动态KV缓存剪

实测DeepSeek R1：推理天花板，但有个坑要

端侧部署小模型爆发：Llama-3B跑在手机上，

【注意事项】CrewAI 安全使用须知

国产大模型卷疯了，开源模型部署门槛再降一档 🚀

精彩评论1