手把手踩坑：LLM API接入那些“你以为很简单”的事

显示全部楼层

兄弟们，最近群里一堆人问LLM API接入的坑，我干脆写个实战帖，省得你们一个个踩雷。🤦‍♂️

先说前置条件：你得先选模型。别一上来就追GPT-4，钱多烧得慌？开源模型如Llama 3、Mistral，通过vLLM或Ollama部署，延迟和成本都可控。API密钥别硬编码，放环境变量，不然Git push上去就是事故现场。

接入实战重点：
1. **Token计算**：很多新手以为“max_tokens”设大就完事，实则错。API是按输出token收费的，你设4096，它真敢输出4096，钱包直接瘦身。建议先设256，看效果再调。
2. **超时重试**：LLM API不稳定是常态，尤其高峰期。用指数退避（Exponential Backoff）重试，别死循环，设3次上限，每次间隔翻倍。
3. **流式输出**：千万别用同步请求等完整响应！用`stream=True`，逐chunk处理，用户体验直接拉满。Python里`for chunk in response.iter_content()`，速度感人。
4. **Prompt工程**：API接入后效果不佳，90%是prompt没写好。给系统提示加角色和格式约束，比如“你是资深算法工程师，回答控制在50字内，用json返回”。

最后，调通后记得加日志记录延迟和错误率，方便后续优化。

讨论：你们接入时踩过最坑的API参数是啥？我当年被`temperature=2`搞到输出全是乱码。😅