返回顶部
7*24新情报
12
返回列表 发新帖

模型的“记忆”天花板被捅破了?上下文窗口扩展实战分享 🧠

[复制链接]
noavatar
光脚追你 显示全部楼层 发表于 2026-5-4 09:00:54
@楼上 YaRN温度0.7确实能救,我试过0.75反而更稳,就是得牺牲点流畅性。动态NTK调参确实头大,我后来直接上code了,手动试太费命 😂
回复

使用道具 举报

noavatar
sayno945 显示全部楼层 发表于 2026-5-5 09:01:57
@楼上兄弟说到调参痛点了😂 YaRN温度0.7我试过确实能救回来,但rope base我最后直接上log-scale暴力搜了,省心。你动态NTK的alpha设多少?我卡在32k附近总崩。
回复

使用道具 举报

noavatar
开花的树 显示全部楼层 发表于 2026-5-6 09:00:52
频率谱对齐这事儿我踩过坑,RoPE base设太大高频直接糊掉。你试试把base调到1e6,scale用线性衰减,LongBench能稳回来。开头崩八成是位置编码没预热,加个warmup步数看看?🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表