AI大模型服务器资源评估
本技能用于评估医疗行业大模型应用场景的算力资源需求,根据门诊/住院诊疗量和大模型应用场景推导GPU算力需求。
评估流程
第一步:收集必要信息
如果用户未提供以下信息,必须询问:
必备信息:
- 1. 地区门诊年诊疗次数(单位:万人次/年)
- 地区住院年诊疗次数(单位:万人次/年)
- 大模型应用场景列表(从以下选项中选择)
可选信息:
- - 各场景覆盖率(如无提供,使用默认值)
- 计划使用的GPU型号(如无提供,默认按910B3显卡测算)
第二步:场景定义与参数
大模型应用场景列表
| 场景名称 | 类型 | 单次占用时间 | 默认覆盖范围 |
|---|
| 知识问答 | 对话 | 24秒/次 | 按需配置 |
| 问诊 |
对话 | 24秒/次 | 按需配置 |
| 报告解读 | 对话 | 24秒/次 | 门诊5% |
| 导医导诊 | 对话 | 24秒/次 | 门诊30% |
| 病史采集 | 对话 | 24秒/次 | 按需配置 |
| AI陪诊 | 对话 | 24秒/次 | 按需配置 |
| 智能随访 | 对话 | 24秒/次 | 按需配置 |
| 病历生成-门诊 | 生成 | 30秒/次 | 门诊100% |
| 病历生成-住院 | 生成 | 50秒/次 | 住院100% |
| 辅助诊断 | 分析 | 50秒/次 | 门诊100% |
| 病历质控-门诊 | 质控 | 40秒/次 | 门诊100% |
| 病历质控-住院 | 质控 | 60秒/次 | 住院100% |
| 诊疗推荐-门诊 | 推荐 | 30秒/次 | 门诊100% |
| 诊疗推荐-住院 | 推荐 | 40秒/次 | 住院100% |
| 报告解读-专用 | 分析 | 20秒/次 | 门诊5% |
| 患者画像提取 | 分析 | 120秒/次 | 门诊+住院100% |
场景分类说明
对话类场景(单次24秒):
- - 知识问答、问诊、报告解读(对话类)
- 导医导诊、病史采集
- AI陪诊、智能随访
生成类场景:
- - 病历生成-门诊:30秒/次
- 病历生成-住院:50秒/次
分析类场景:
- - 辅助诊断:50秒/次
- 病历质控-门诊:40秒/次
- 病历质控-住院:60秒/次
- 诊疗推荐-门诊:30秒/次
- 诊疗推荐-住院:40秒/次
- 报告解读-专用:20秒/次
- 患者画像提取:120秒/次
第三步:算力推导公式
日均调用量计算
日门诊量 = 年门诊量(万人次)× 10000 ÷ 365
日住院量 = 年住院量(万人次)× 10000 ÷ 365
单场景占用时间计算
某场景日占用时间(秒)= 日调用量 × 单次占用时间(秒)
某场景日占用时间(小时)= 日占用时间(秒)÷ 3600
总占用时间汇总
总占用时间(小时)= 所有场景占用时间之和
第四步:算力资源配置
默认配置参数(910B3显卡)
- - 每卡并发路数:10路
- 单卡日处理时间:10路 × 8小时 = 80小时/卡/日
显卡需求计算
总显卡需求(卡)= 总占用时间(小时)÷ 80小时/卡
一体机配置(华为一体机)
- - 单台一体机卡数:8卡
- 一体机台数 = 总显卡需求 ÷ 8,向上取整
总算力计算(可选)
如用户需要总算力(P):
- - 单台华为一体机(8卡910B3)算力:2.5P
- 总算力 = 一体机台数 × 2.5P
输出格式规范
格式要求
- 1. 使用普通文档格式,不要使用数学公式
- 不要使用表格,正常分行描述
- 输出结构清晰,层次分明
标准输出模板
CODEBLOCK0
执行步骤
- 1. 信息收集:确认用户提供门诊/住院年诊疗量、选择的大模型场景
- 数据计算:按公式计算日调用量、各场景占用时间
- 资源推导:计算显卡需求、一体机台数
- 格式化输出:按标准模板生成算力评估报告
参考文档
详细的推导参数和示例请参考:
AI大模型服务器资源评估
本技能用于评估医疗行业大模型应用场景的算力资源需求,根据门诊/住院诊疗量和大模型应用场景推导GPU算力需求。
评估流程
第一步:收集必要信息
如果用户未提供以下信息,必须询问:
必备信息:
- 1. 地区门诊年诊疗次数(单位:万人次/年)
- 地区住院年诊疗次数(单位:万人次/年)
- 大模型应用场景列表(从以下选项中选择)
可选信息:
- - 各场景覆盖率(如无提供,使用默认值)
- 计划使用的GPU型号(如无提供,默认按910B3显卡测算)
第二步:场景定义与参数
大模型应用场景列表
| 场景名称 | 类型 | 单次占用时间 | 默认覆盖范围 |
|---|
| 知识问答 | 对话 | 24秒/次 | 按需配置 |
| 问诊 |
对话 | 24秒/次 | 按需配置 |
| 报告解读 | 对话 | 24秒/次 | 门诊5% |
| 导医导诊 | 对话 | 24秒/次 | 门诊30% |
| 病史采集 | 对话 | 24秒/次 | 按需配置 |
| AI陪诊 | 对话 | 24秒/次 | 按需配置 |
| 智能随访 | 对话 | 24秒/次 | 按需配置 |
| 病历生成-门诊 | 生成 | 30秒/次 | 门诊100% |
| 病历生成-住院 | 生成 | 50秒/次 | 住院100% |
| 辅助诊断 | 分析 | 50秒/次 | 门诊100% |
| 病历质控-门诊 | 质控 | 40秒/次 | 门诊100% |
| 病历质控-住院 | 质控 | 60秒/次 | 住院100% |
| 诊疗推荐-门诊 | 推荐 | 30秒/次 | 门诊100% |
| 诊疗推荐-住院 | 推荐 | 40秒/次 | 住院100% |
| 报告解读-专用 | 分析 | 20秒/次 | 门诊5% |
| 患者画像提取 | 分析 | 120秒/次 | 门诊+住院100% |
场景分类说明
对话类场景(单次24秒):
- - 知识问答、问诊、报告解读(对话类)
- 导医导诊、病史采集
- AI陪诊、智能随访
生成类场景:
- - 病历生成-门诊:30秒/次
- 病历生成-住院:50秒/次
分析类场景:
- - 辅助诊断:50秒/次
- 病历质控-门诊:40秒/次
- 病历质控-住院:60秒/次
- 诊疗推荐-门诊:30秒/次
- 诊疗推荐-住院:40秒/次
- 报告解读-专用:20秒/次
- 患者画像提取:120秒/次
第三步:算力推导公式
日均调用量计算
日门诊量 = 年门诊量(万人次)× 10000 ÷ 365
日住院量 = 年住院量(万人次)× 10000 ÷ 365
单场景占用时间计算
某场景日占用时间(秒)= 日调用量 × 单次占用时间(秒)
某场景日占用时间(小时)= 日占用时间(秒)÷ 3600
总占用时间汇总
总占用时间(小时)= 所有场景占用时间之和
第四步:算力资源配置
默认配置参数(910B3显卡)
- - 每卡并发路数:10路
- 单卡日处理时间:10路 × 8小时 = 80小时/卡/日
显卡需求计算
总显卡需求(卡)= 总占用时间(小时)÷ 80小时/卡
一体机配置(华为一体机)
- - 单台一体机卡数:8卡
- 一体机台数 = 总显卡需求 ÷ 8,向上取整
总算力计算(可选)
如用户需要总算力(P):
- - 单台华为一体机(8卡910B3)算力:2.5P
- 总算力 = 一体机台数 × 2.5P
输出格式规范
格式要求
- 1. 使用普通文档格式,不要使用数学公式
- 不要使用表格,正常分行描述
- 输出结构清晰,层次分明
标准输出模板
X. 算力资源
X.X 区域大模型算力资源需求评估
X.X.X 模型引擎处理能力测算
服务场景需求背景:
XX地区年均门诊量约XXXX万人次,住院人数约XX万人次。主要服务场景包括:XXX、XXX、XXX等。
日均调用量测算:
(1)场景一名称
- - 覆盖率:XX%
- 日调用量:X.XX万次
- 占用时间:X.XX万×XX秒=XXX万秒≈XXX.X小时
(2)场景二名称
- - 覆盖率:XX%
- 日调用量:X.XX万次
- 占用时间:X.XX万×XX秒=XXX万秒≈XXX.X小时
[继续列出所有场景...]
X.X.X 总占用时间汇总
各场景占用时间累加:
XXX.X + XXX.X + ... = XXXX.X小时
X.X.X 算力资源配置
- 每卡支持X路并发
- 单卡日处理时间:X×X = XX小时
- XXXX.X小时/XX小时≈XX.X卡
- 实例配置:XX.X/X≈X.X 台一体机
- 向上取整 X台一体机
- 单台一体机(X卡)提供X.XP算力
- X台×X.XP=XX.XP
执行步骤
- 1. 信息收集:确认用户提供门诊/住院年诊疗量、选择的大模型场景
- 数据计算:按公式计算日调用量、各场景占用时间
- 资源推导:计算显卡需求、一体机台数
- 格式化输出:按标准模板生成算力评估报告
参考文档
详细的推导参数和示例请参考: