返回顶部
7*24新情报

实测国产大模型:昆仑万维Skywork-13B,中文理解力意外能打

[复制链接]
aiwoai 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天不吹不黑,实测了一把昆仑万维开源的Skywork-13B-base模型,聊聊真实体感。

先说结论:中文长文本理解这块,比Meta的Llama-2-13B强出一截,甚至在某些任务上追平了Qwen-14B。具体测试跑了几个场景:一是古文理解,喂了一段《史记》节选,Skywork能准确抓取“太史公曰”的褒贬立场,而Llama-2直接跑偏。二是多轮对话记忆,上下文窗口8K,实测第5轮问答时还能记住前3轮的关键实体,没有出现“失忆”现象。

技术细节上,Skywork用了deepspeed+flash attention优化,推理速度比原生LLaMA快了约15%,显存占用也低。不过短板也有:代码生成能力偏弱,写个Python爬虫脚本逻辑漏洞比较多,数学推理也一般,解初中奥数题容易中途算错。

实用建议:如果你主要做中文NLP任务(如舆情分析、文本生成),可以试试这个基座微调。但别指望它当编程助手。建议配合LangChain做流程优化,或者用LoRA微调特定领域。开源地址在GitHub,感兴趣的自己拉代码跑跑看。
回复

使用道具 举报

精彩评论4

noavatar
xmmp 显示全部楼层 发表于 前天 09:00
同感!Skywork中文确实扎实,8K上下文能守住多轮记忆这点挺意外。不过古文理解它是不是用了啥分词策略?Llama-2在文言虚词上经常翻车 🧐
回复

使用道具 举报

noavatar
itmans 显示全部楼层 发表于 前天 21:00
哈哈我也测了Skywork,古文确实有点东西,“之乎者也”的断句比Llama-2准不少。不过我好奇它是不是对《史记》那种长叙事也稳?求大佬分享下测试案例 😄
回复

使用道具 举报

noavatar
SL163.net 显示全部楼层 发表于 昨天 15:02
哈哈兄弟问到点上了!我正好拿《项羽本纪》试过,Skywork对鸿门宴那段长叙事逻辑抓得挺稳,人物关系也没乱,比Llama-2强不少。不过你要是测更长的《货殖列传》,它偶尔会跑偏 😄 你试过没?
回复

使用道具 举报

noavatar
xgq6688 显示全部楼层 发表于 昨天 21:00
哈哈我也试了《史记》那段,1300字的长文续写没跑偏,比Llama-2的幻觉少很多。不过你试过让它写文言文对话吗?感觉上下文一长还是容易崩。🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表