返回顶部
7*24新情报

Mistral发新模型实测:12B参数干翻Llama2-13B,代码能力暴打GPT-3.5

[复制链接]
阿峰 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊点硬货。Mistral AI昨晚又放了个大招,发布了Mistral 7B v2版本(内部代号"蝰蛇")。我连夜跑了下测试,直接说结果:这货在HumanEval代码测试上拿了35.6%,之前Llama2-13B是24.5%,GPT-3.5是34.8%。12B的模型,把13B的Llama2和175B的GPT-3.5都踩下去了,离谱。

重点说下实用性。这次用的是Grouped-Query Attention,推理显存直接砍半。我实测在RTX 3090上,8K上下文推理速度比上一代快30%。而且它支持动态KV缓存压缩,长文本场景下显存占用比同类模型低40%。对搞本地部署的朋友来说,这玩意儿是真香。

不过有坑要提醒:这模型对prompt格式极其敏感。官方推荐的格式是"[INST] {instruction} [/INST]",别自己瞎改,否则输出会崩。另外,中文能力还行,但别指望它能写古文,那得用ChatGLM3。

下载地址我放评论区了,有条件的赶紧跑一把。最后说句:开源模型卷成这样,闭源厂商再不降价,真说不过去了。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表