手把手踩坑：LLM API接入那些见不得人的坑

显示全部楼层

上周给团队接GPT-4的API，结果被速率限制和token计费搞到凌晨两点。来，直接上干货。

🚨 **第一坑：速率限制（Rate Limit）**
别以为官方文档写“每分钟1000次”就真能跑满。实测并发超过30个请求，直接429报错。解决方案：用tenacity库做指数退避重试，配合Token Bucket算法限流，稳定提升30%成功率。

🛠 **第二坑：上下文窗口管理**
Claude的200K上下文？别贪心。实际业务中，超过80K就频繁输出截断，不如自己写个滑动窗口+关键信息提取。推荐用LangChain的ConversationSummaryMemory做自动压缩。

🔑 **第三坑：API Key轮换策略**
公司账户多人共用，结果某同事把Key硬编码进前端——当天就被爬虫撸走30万。建议：后端用Vault管理Key，前端只发临时Token，发现异常秒级吊销。

💡 **冷知识：Embedding模型复用**
别傻傻每次调用text-embedding-3-large，本地缓存相似度高的向量，用FAISS做召回。对RAG应用，能省70%的API费。

最后问个扎心的问题：你们在接入Mistral或Llama3时，有没有被JSON Schema的硬性校验坑过？评论区聊聊。