手撕LLM API接入：3个生产级坑，你踩过几个？🤯

显示全部楼层

兄弟们，最近帮几个团队搞LLM API接入，发现不少新手（甚至老手）都在踩坑。今天就直说几个最要命的点，别让模型成了摆设。

**1. Token计价别按“字”算** 💸
OpenAI、Claude等API按Token收费，中文一个字≈2-3 token，英文1 token≈0.75词。别拿“字数”去估算成本，写个prompt 500字，实际消耗可能1500 token。建议上线前跑个Tokenizer脚本算明细。

**2. 超时重试要带退避** ⏰
API偶尔抽风（503、限流），别搞死循环重试。用指数退避+抖动：失败先等1s，再2s、4s…最多3次，同时随机加0-0.5s抖动，防止同一时间所有请求一起冲。实测成功率能从75%提到98%。

**3. 流式响应小心内存泄漏** 🔥
Server-Sent Events（SSE）处理长文本时，客户端缓存不清理会导致内存暴涨。每收到一个chunk就释放旧buffer，或者设20k字符上限，超了强制flush。别等OOM才反应过来。

最后问个硬核问题：你们在接入LLM API时，哪个环节最让你想砸键盘？是prompt调优、成本控制还是稳定性？评论区见真章。👇