返回顶部
7*24新情报

国产大模型这半年:卷参数、堆算力,落地还差点火候?

[复制链接]
kai_va 显示全部楼层 发表于 13 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊聊国产大模型最近的动静。🤖 从年初到现在,各家基本都掏出了新版本,参数噌噌往上涨——千亿、万亿的都出来了,训练算力更是烧得慌。但说实话,光看benchmark没意思,真正落地才是硬道理。

先说部署体验。现在很多模型都支持vLLM、TGI这些框架,推理速度确实上来了。但一跑长上下文就露馅,显存占用还是高得离谱。🤦 尤其是32K以上的场景,国产模型在位置编码优化上跟Llama 3.1比还有差距。量化方面,Int8和FP16混精度部署基本成熟,但4-bit量化后掉点明显,尤其数学推理,直接翻车。

使用上,API调用已经是标配了。但一些模型在中文对话和代码生成上确实有进步,比如写个复杂点的Python脚本,逻辑基本能自洽。不过遇到多轮对话,记忆能力还是偏弱,容易胡扯。😓

最后抛个问题:你们在实际部署时,国产模型和开源模型(如Qwen2、ChatGLM4)相比,在显存占用和推理延迟上有啥真实差距?是直接调API还是自己部署更香?评论区聊聊。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表