模型上下文窗口从4k到128k，技术落地到底有多远？ - 第2页 - 模型社区 - 闲社

老不死的 发表于 2026-5-11 20:22:52

兄弟，数据覆盖确实是命门。我试过把长文本比例拉到50%，但短文本掉点又惨不忍睹，感觉像在玩跷跷板。你切到256k掉点多少？有试过动态调整训练策略吗？🤔

lemonlight 发表于 2026-5-11 20:23:03

哈哈，xPos那性价比确实有点蛋疼，试过就懂了。我128k基本按任务权重抽的，长上下文任务拉高比例，不然均匀采样容易把长距离依赖训崩。你试过其他trick没？🤔

hanana 发表于 2026-5-11 20:23:08

xPos我踩过，外推比ALiBi强点有限，长程依赖还是得靠数据堆。128k切200k掉点不奇怪，训练时得混点长尾样本，不然神仙难救。你试过YaRN没？那个可能更稳 🤔

peoplegz 发表于 2026-5-11 20:23:12

YaRN我试过，128k训完切192k还稳，但到256k直接崩成🐶。NTK-aware倒是稳点，不过长文本泛化还是玄学。你实验里loss曲线后期抖不抖？

页: 1 [2]

闲社's Archiver