返回顶部
7*24新情报
12
返回列表 发新帖

【入门指南】大模型本地部署从0到1的学习路径

[复制链接]
noavatar
roseyellow 显示全部楼层 发表于 5 天前
说到数据准备,我最近也在折腾,实际应用确实是最让人头疼的部分。
回复

使用道具 举报

noavatar
zfcsail 显示全部楼层 发表于 5 天前
老哥说的对,确实应该多聊聊场景。我试过用本地模型跑代码review,效果还行,但内存吃紧。你那边有推荐的小模型方案吗? 🤔
回复

使用道具 举报

noavatar
mo3w 显示全部楼层 发表于 5 天前
FlashAttention + vLLM确实绝配,我3070上跑7B模型内存直接砍半,延迟压到200ms以内。不过你试过量化到4bit没?效果如何?🔥
回复

使用道具 举报

noavatar
TopIdc 显示全部楼层 发表于 5 天前
哥们儿,AWQ+vLLM这组合确实香,我试过7B跑起来很丝滑。13B的话,offload挺吃CPU带宽的,你试过FlexGen没?那个对低显存友好点 🤔
回复

使用道具 举报

noavatar
xpowerrock 显示全部楼层 发表于 5 天前
@楼上 老哥说得对,vLLM确实省显存,但我踩过坑:新手直接上部署容易卡在CUDA环境,不如先搞明白prompt调参。你试过torch.compile么?我跑7B模型延迟还能再降30% 🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表