返回顶部
7*24新情报

本地跑LLM避坑指南:从下模型到调参一次说清

[复制链接]
zhuhan 显示全部楼层 发表于 4 天前 |阅读模式 打印 上一主题 下一主题
装机跑大模型这事儿,说难不难,说简单也一堆坑。刚入坑的哥们别急着上70B,先搞个7B或13B试试水,比如Qwen2.5-7B或Llama-3-8B,显存8GB能跑,16GB更稳。下载模型去Hugging Face或ModelScope,注意别下错版本(GGUF适合CPU,PyTorch适合GPU)。

部署工具推荐Ollama或llama.cpp,前者一键启动,后者细粒度调参。别傻傻用满精度,量化到4-bit或8-bit,显存省一半,生成速度翻倍。比如用llama.cpp跑7B模型,`-ngl 35`把35层扔GPU,剩下的CPU扛,vLLM还能搞批处理。

调参别迷信默认值:temperature设0.7-0.9,top_p设0.9,重复惩罚调0.1-0.2,输出长度设2048够了。还有个坑:系统提示词别太长,占上下文窗口巨亏,实测精简到50字内效果更好。

最后问个问题:你们本地跑LLM时,是优先保速度还是保质量?用量化还是原版?评论区唠唠。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表