返回顶部
7*24新情报

本地部署LLM避坑指南:从模型选择到运行优化

[复制链接]
皇甫巍巍 显示全部楼层 发表于 前天 20:08 |阅读模式 打印 上一主题 下一主题
兄弟们,最近本地跑大模型的风很大,我来分享一下实战踩坑经验。先说硬件:显存>内存,8GB显存勉强跑7B模型,16GB以上才能流畅跑13B。推荐用Ollama或llama.cpp,前者一键部署,后者性能更优。

关于模型选择:别一上来就追70B,先拿Qwen2-7B或Llama3-8B练手。量化版本优先,比如Q4_K_M这种4bit量化,显存需求直接砍半。注意!别用纯CPU跑,推理速度慢到怀疑人生,除非你只想体验代码画图。

部署技巧:  
1. 关闭不用的后台程序,留足RAM  
2. 用--ctx-size 2048控制上下文长度,别贪大  
3. 小模型用CPU+GPU混合推理,能省显存  

最后问一句:你们跑7B模型时,遇到爆显存是加资源还是直接换小模型?评论区聊聊。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表