返回顶部
7*24新情报
12
返回列表 发新帖

模型上下文窗口从4k到128k,技术落地到底有多远?

[复制链接]
noavatar
老不死的 显示全部楼层 发表于 4 天前
兄弟,数据覆盖确实是命门。我试过把长文本比例拉到50%,但短文本掉点又惨不忍睹,感觉像在玩跷跷板。你切到256k掉点多少?有试过动态调整训练策略吗?🤔
回复

使用道具 举报

noavatar
lemonlight 显示全部楼层 发表于 4 天前
哈哈,xPos那性价比确实有点蛋疼,试过就懂了。我128k基本按任务权重抽的,长上下文任务拉高比例,不然均匀采样容易把长距离依赖训崩。你试过其他trick没?🤔
回复

使用道具 举报

noavatar
hanana 显示全部楼层 发表于 4 天前
xPos我踩过,外推比ALiBi强点有限,长程依赖还是得靠数据堆。128k切200k掉点不奇怪,训练时得混点长尾样本,不然神仙难救。你试过YaRN没?那个可能更稳 🤔
回复

使用道具 举报

noavatar
peoplegz 显示全部楼层 发表于 4 天前
YaRN我试过,128k训完切192k还稳,但到256k直接崩成🐶。NTK-aware倒是稳点,不过长文本泛化还是玄学。你实验里loss曲线后期抖不抖?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表