Option	Latency	Throughput	Use Case
FastAPI + Uvicorn	Low	Medium	REST APIs, small models
Triton Inference Server

Trigger	Detection	Action
Scheduled	Cron (weekly/monthly)	Full retrain
Performance drop

Database	Hosting	Scale	Latency	Best For
Pinecone	Managed	High	Low	Production, managed
Qdrant

Strategy	Chunk Size	Overlap	Best For
Fixed	500-1000 tokens	50-100	General text
Sentence

Metric	Warning	Critical
p95 latency	> 100ms	> 200ms
Error rate

Category	Tools
ML Frameworks	PyTorch, TensorFlow, Scikit-learn, XGBoost
LLM Frameworks

高级机器学习工程师

面向模型部署、MLOps基础设施和LLM集成的生产级机器学习工程模式。

模型部署工作流

将训练好的模型部署到生产环境并实施监控：

1. 将模型导出为标准格式（ONNX、TorchScript、SavedModel）
将模型与依赖项打包到Docker容器中
部署到预发布环境
对预发布环境运行集成测试
向生产环境部署金丝雀版本（5%流量）
监控延迟和错误率1小时
指标达标后提升至全量生产
验证标准： p95延迟 < 100ms，错误率 < 0.1%

容器模板

dockerfile
FROM python:3.11-slim

COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

COPY model/ /app/model/
COPY src/ /app/src/

HEALTHCHECK CMD curl -f http://localhost:8080/health || exit 1

EXPOSE 8080
CMD [uvicorn, src.server:app, --host, 0.0.0.0, --port, 8080]

服务选项

选项	延迟	吞吐量	使用场景
FastAPI + Uvicorn	低	中	REST API、小型模型
Triton推理服务器

极低 | 极高 | GPU推理、批处理 | | TensorFlow Serving | 低 | 高 | TensorFlow模型 | | TorchServe | 低 | 高 | PyTorch模型 | | Ray Serve | 中 | 高 | 复杂流水线、多模型 |

MLOps流水线搭建

建立自动化训练和部署流程：

1. 配置特征存储（Feast、Tecton）用于训练数据
设置实验跟踪（MLflow、Weights & Biases）
创建包含超参数日志的训练流水线
在模型注册表中注册模型并附带版本元数据
配置由注册表事件触发的预发布部署
设置A/B测试基础设施用于模型对比
启用漂移监控并配置告警
验证标准： 新模型自动与基线模型进行评估对比

特征存储模式

python
from feast import Entity, Feature, FeatureView, FileSource

user = Entity(name=userid, valuetype=ValueType.INT64)

user_features = FeatureView(
name=user_features,
entities=[user_id],
ttl=timedelta(days=1),
features=[
Feature(name=purchasecount30d, dtype=ValueType.INT64),
Feature(name=avgordervalue, dtype=ValueType.FLOAT),
],
online=True,
source=FileSource(path=data/user_features.parquet),
)

重训练触发条件

触发条件	检测方式	操作
定时触发	Cron（每周/每月）	全量重训练
性能下降

LLM集成工作流

将LLM API集成到生产应用中：

1. 创建供应商抽象层以实现供应商灵活性
实现带指数退避的重试逻辑
配置备用供应商的故障切换
设置令牌计数和上下文截断
为重复查询添加响应缓存
实现每次请求的成本追踪
使用Pydantic添加结构化输出验证
验证标准： 响应正确解析，成本在预算内

供应商抽象层

python
from abc import ABC, abstractmethod
from tenacity import retry, stopafterattempt, wait_exponential

class LLMProvider(ABC):
@abstractmethod
def complete(self, prompt: str, kwargs) -> str:
pass

@retry(stop=stopafterattempt(3), wait=wait_exponential(min=1, max=10))
def callllmwith_retry(provider: LLMProvider, prompt: str) -> str:
return provider.complete(prompt)

成本管理

供应商	输入成本	输出成本
GPT-4	$0.03/1K	$0.06/1K
GPT-3.5

$0.0005/1K | $0.0015/1K | | Claude 3 Opus | $0.015/1K | $0.075/1K | | Claude 3 Haiku | $0.00025/1K | $0.00125/1K |

RAG系统实现

构建检索增强生成流水线：

1. 选择向量数据库（Pinecone、Qdrant、Weaviate）
基于质量/成本权衡选择嵌入模型
实现文档分块策略
创建带元数据提取的摄取流水线
通过查询嵌入构建检索功能
添加重排序以提升相关性
格式化上下文并发送至LLM
验证标准： 响应引用检索到的上下文，无幻觉

向量数据库选择

数据库	托管方式	规模	延迟	最佳适用场景
Pinecone	托管	高	低	生产环境、托管服务
Qdrant

两者皆可 | 高 | 极低 | 性能关键型 | | Weaviate | 两者皆可 | 高 | 低 | 混合搜索 | | Chroma | 自托管 | 中 | 低 | 原型开发 | | pgvector | 自托管 | 中 | 中 | 现有Postgres环境 |

分块策略

策略	块大小	重叠量	最佳适用场景
固定分块	500-1000个令牌	50-100	通用文本
句子分块

模型监控

监控生产模型是否存在漂移和性能退化：

1. 设置延迟跟踪（p50、p95、p99）
配置错误率告警
实现输入数据漂移检测
跟踪预测分布变化
在有真实标签时记录数据
通过A/B指标对比模型版本
设置自动化重训练触发条件
验证标准： 在用户感知到性能退化前触发告警

漂移检测

python
from scipy.stats import ks_2samp

def detect_drift(reference, current, threshold=0.05):
statistic, pvalue = ks2samp(reference, current)
return {
driftdetected: pvalue < threshold,
ks_statistic: statistic,
pvalue: pvalue
}

告警阈值

指标	警告	严重
p95延迟	> 100ms	> 200ms
错误率

> 0.1% | > 1% | | PSI（漂移） | > 0.1 | > 0.2 | | 准确率下降 | > 2% | > 5% |

参考文档

MLOps生产模式

references/mlopsproductionpatterns.md 包含：

- 带Kubernetes清单的模型部署流水线
带Feast示例的特征存储架构
带漂移检测代码的模型监控
带流量分割的A/B测试基础设施
带MLflow的自动化重训练流水线

LLM集成指南

references/llmintegrationguide.md 包含：

- 供应商抽象层模式
使用tenacity的重试和故障切换策略
提示工程模板（少样本、思维链）
使用tiktoken的令牌优化
成本计算和追踪

RAG系统架构

references/ragsystemarchitecture.md 包含：

- 带代码的RAG流水线实现

Provider	Input Cost	Output Cost
GPT-4	$0.03/1K	$0.06/1K
GPT-3.5

senior-ml-engineer高级ML工程师

senior-ml-engineer

Senior ML Engineer

Table of Contents

Model Deployment Workflow

Container Template

Serving Options

MLOps Pipeline Setup

Feature Store Pattern

Retraining Triggers

LLM Integration Workflow

Provider Abstraction

Cost Management

RAG System Implementation

Vector Database Selection

Chunking Strategies

Model Monitoring

Drift Detection

Alert Thresholds

Reference Documentation

MLOps Production Patterns

LLM Integration Guide

RAG System Architecture

Tools

Model Deployment Pipeline

RAG System Builder

ML Monitoring Suite

Tech Stack

高级机器学习工程师

目录

模型部署工作流

容器模板

服务选项

MLOps流水线搭建

特征存储模式

重训练触发条件

LLM集成工作流

供应商抽象层

成本管理

RAG系统实现

向量数据库选择

分块策略

模型监控

漂移检测

告警阈值

参考文档

MLOps生产模式

LLM集成指南

RAG系统架构

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement