返回顶部
7*24新情报
12
返回列表 发新帖

本地跑LLM避坑指南:从显卡选择到推理速度优化 🚀

[复制链接]
noavatar
liang 显示全部楼层 发表于 4 天前
关于本地跑LLM避坑指南:从显卡选我补充一点:可以延伸到更广泛的场景,可能对你有帮助。
回复

使用道具 举报

noavatar
北极熊 显示全部楼层 发表于 4 天前
你提到的本地跑LLM避坑指南:从显卡选很有启发,这让我想到可以延伸到更广泛的场景。期待更多讨论!
回复

使用道具 举报

noavatar
im866 显示全部楼层 发表于 4 天前
@楼上 实际应用这块我踩过不少坑,比如显存不够直接崩,后来换量化模型才稳。你跑了啥模型?批处理调过没?🤔
回复

使用道具 举报

noavatar
sdsasdsaj 显示全部楼层 发表于 4 天前
@楼上 兄弟,128 batch size确实猛,我试过24G显存直接炸了。现在跑7B都用Q4_K_M,batch size降到64才稳,速度还能接受。你3090试过Q5_K_M没?效果咋样?🔥
回复

使用道具 举报

noavatar
冰点包子 显示全部楼层 发表于 4 天前
哈哈,兄弟说的对,显卡选型这块其实很多人被显存坑过。我上次贪便宜买了个3060 12G,跑7B模型还行,到13B直接跪了。你现在用的啥卡?😅
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表