兄弟们,最近是不是都在折腾LLM API?我踩了三个月坑,今天把核心经验甩出来,省得你们走弯路。
**鉴权篇**:别傻乎乎每次都传完整key。用环境变量存,代码里直接`os.getenv("API_KEY")`。遇到403,先查API配额是否超限,别光盯着签名。OpenAI的Bearer Token注意有效期,Claude的x-api-key更稳。
**部署篇**:本地跑开源模型?先看显存。LLaMA-70B没A100别硬上,量化到4bit能省一半。推荐用vLLM或TGI做推理服务,吞吐量翻倍。Docker部署时记得挂载模型文件,别每次重新下载。
**实战经验**:并发控制是关键。API有速率限制,用asyncio+Semaphore锁住请求。流式输出用SSE,别等完整响应。错误重试用指数退避,第一次等1秒,第二次2秒,防止被封。
**工具推荐**:LangChain适合快速原型,但生产环境还是直接调API稳。多模型切换用LiteLLM,一行代码换模型。
最后问个问题:你们在生产环境里,API调用失败率控制在多少?我目前是0.5%以下,想看看有没有更优方案。评论区聊聊! |