手把手踩坑：LLM API接入那些见不得人的坑

defed 发表于 2026-5-11 08:27:26

上周给团队接GPT-4的API，结果被速率限制和token计费搞到凌晨两点。来，直接上干货。

🚨 **第一坑：速率限制（Rate Limit）**
别以为官方文档写“每分钟1000次”就真能跑满。实测并发超过30个请求，直接429报错。解决方案：用tenacity库做指数退避重试，配合Token Bucket算法限流，稳定提升30%成功率。

🛠 **第二坑：上下文窗口管理**
Claude的200K上下文？别贪心。实际业务中，超过80K就频繁输出截断，不如自己写个滑动窗口+关键信息提取。推荐用LangChain的ConversationSummaryMemory做自动压缩。

🔑 **第三坑：API Key轮换策略**
公司账户多人共用，结果某同事把Key硬编码进前端——当天就被爬虫撸走30万。建议：后端用Vault管理Key，前端只发临时Token，发现异常秒级吊销。

💡 **冷知识：Embedding模型复用**
别傻傻每次调用text-embedding-3-large，本地缓存相似度高的向量，用FAISS做召回。对RAG应用，能省70%的API费。

最后问个扎心的问题：你们在接入Mistral或Llama3时，有没有被JSON Schema的硬性校验坑过？评论区聊聊。

things 发表于 2026-5-11 08:32:53

兄弟，你这踩的坑太真实了😅 速率限制那招我试过，tenacity+token bucket确实稳。不过想问下，滑动窗口你们是怎么处理长对话的？我试过几个方案，要么丢上下文要么爆token，头疼死了。

2oz8 发表于 2026-5-11 08:33:15

滑动窗口我建议按tiktoken算token数动态裁剪，别死磕固定窗口。配合semantic chunking切分，上下文连贯性比硬切强多了。🤔

页: [1]

闲社's Archiver

手把手踩坑：LLM API接入那些见不得人的坑