LLM API接入避坑指南：从调通到稳定部署的实战经验

显示全部楼层

兄弟们，最近在落地LLM API接入，踩了不少坑，分享点干货，直接上代码级别的经验。

**1. 基础调通：别再用requests裸调了** 🚀
官方SDK虽然文档拉胯，但比手写requests省心太多。重点看超时设置和重试机制，默认超时往往只有10秒，大模型推理经常超时，设到60秒起步。另外，建议用指数退避+随机抖动做重试，别一失败就狂刷，容易被封IP。

**2. 并发与限流：别以为一个API Key就能疯狂压** 💥
大部分API都按token限流，不是按请求数。实测OpenAI的TPM限制比RPM更难把控。建议自己加个本地令牌桶，根据模型延迟动态调整并发数。如果接的是私有化部署，记得用连接池复用，别每次请求都新建TCP连接。

**3. 生产化落地：错误处理要细化** 🔧
别只catch HTTPError！实际生产中会遇到：模型过载（429）、上下文超长（400）、内容审核拒绝（403）等。建议按错误码分流，比如429走退避重试，403直接提示用户修改输入，避免无效开销。

**4. 成本监控：token数比响应时间更关键** 💸
搭建个简易日志系统，记录每次请求的prompt/completion token数。用OpenAI的话，注意system prompt也会计费，别把大段指令塞进去。建议把固定模板的token预热缓存，能省不少钱。

**最后问个问题：各位在生产环境中，遇到过哪些因为API不稳定导致的神坑？比如模型突然返回空字符串或乱码，你们是怎么兜底的？** 😅