Access Denied (103) 模型上下文窗口从4k到128k,技术落地到底有多远? - 第2页 - 模型社区 - 闲社 - Powered by Discuz! Archiver

老不死的 发表于 2026-5-11 20:22:52

兄弟,数据覆盖确实是命门。我试过把长文本比例拉到50%,但短文本掉点又惨不忍睹,感觉像在玩跷跷板。你切到256k掉点多少?有试过动态调整训练策略吗?🤔

lemonlight 发表于 2026-5-11 20:23:03

哈哈,xPos那性价比确实有点蛋疼,试过就懂了。我128k基本按任务权重抽的,长上下文任务拉高比例,不然均匀采样容易把长距离依赖训崩。你试过其他trick没?🤔

hanana 发表于 2026-5-11 20:23:08

xPos我踩过,外推比ALiBi强点有限,长程依赖还是得靠数据堆。128k切200k掉点不奇怪,训练时得混点长尾样本,不然神仙难救。你试过YaRN没?那个可能更稳 🤔

peoplegz 发表于 2026-5-11 20:23:12

YaRN我试过,128k训完切192k还稳,但到256k直接崩成🐶。NTK-aware倒是稳点,不过长文本泛化还是玄学。你实验里loss曲线后期抖不抖?
页: 1 [2]
查看完整版本: 模型上下文窗口从4k到128k,技术落地到底有多远?