Azure AI Evaluation SDK for Python

Assess generative AI application performance with built-in and custom evaluators.

Installation

CODEBLOCK0

Environment Variables

CODEBLOCK1

Built-in Evaluators

Quality Evaluators (AI-Assisted)

CODEBLOCK2

Quality Evaluators (NLP-based)

CODEBLOCK3

Safety Evaluators

CODEBLOCK4

Single Row Evaluation

CODEBLOCK5

Batch Evaluation with evaluate()

CODEBLOCK6

Composite Evaluators

CODEBLOCK7

Evaluate Application Target

CODEBLOCK8

Custom Evaluators

Code-Based

CODEBLOCK9

Prompt-Based

CODEBLOCK10

Log to Foundry Project

CODEBLOCK11

Evaluator Reference

Evaluator	Type	Metrics
INLINECODE0	AI	groundedness (1-5)
INLINECODE1

Best Practices

1. Use composite evaluators for comprehensive assessment
Map columns correctly — mismatched columns cause silent failures
Log to Foundry for tracking and comparison across runs
Create custom evaluators for domain-specific metrics
Use NLP evaluators when you have ground truth answers
Safety evaluators require Azure AI project scope
Batch evaluation is more efficient than single-row loops

Reference Files

File	Contents
references/built-in-evaluators.md	Detailed patterns for AI-assisted, NLP-based, and Safety evaluators with configuration tables
references/custom-evaluators.md

Creating code-based and prompt-based custom evaluators, testing patterns | | scripts/runbatch_evaluation.py | CLI tool for running batch evaluations with quality, safety, and custom evaluators |

Azure AI 评估 SDK for Python

使用内置和自定义评估器评估生成式 AI 应用程序性能。

安装

bash
pip install azure-ai-evaluation

支持远程评估

pip install azure-ai-evaluation[remote]

环境变量

bash

用于 AI 辅助评估器

AZUREOPENAIENDPOINT=https://.openai.azure.com
AZUREOPENAIAPI_KEY=
AZUREOPENAIDEPLOYMENT=gpt-4o-mini

用于 Foundry 项目集成

AIPROJECTCONNECTIONSTRING=

内置评估器

质量评估器（AI 辅助）

python
from azure.ai.evaluation import (
GroundednessEvaluator,
RelevanceEvaluator,
CoherenceEvaluator,
FluencyEvaluator,
SimilarityEvaluator,
RetrievalEvaluator
)

使用 Azure OpenAI 模型配置初始化

model_config = { azureendpoint: os.environ[AZUREOPENAI_ENDPOINT], apikey: os.environ[AZUREOPENAIAPIKEY], azuredeployment: os.environ[AZUREOPENAI_DEPLOYMENT] }

groundedness = GroundednessEvaluator(model_config)
relevance = RelevanceEvaluator(model_config)
coherence = CoherenceEvaluator(model_config)

质量评估器（基于 NLP）

python
from azure.ai.evaluation import (
F1ScoreEvaluator,
RougeScoreEvaluator,
BleuScoreEvaluator,
GleuScoreEvaluator,
MeteorScoreEvaluator
)

f1 = F1ScoreEvaluator()
rouge = RougeScoreEvaluator()
bleu = BleuScoreEvaluator()

安全评估器

python
from azure.ai.evaluation import (
ViolenceEvaluator,
SexualEvaluator,
SelfHarmEvaluator,
HateUnfairnessEvaluator,
IndirectAttackEvaluator,
ProtectedMaterialEvaluator
)

violence = ViolenceEvaluator(azureaiproject=project_scope)
sexual = SexualEvaluator(azureaiproject=project_scope)

单行评估

python
from azure.ai.evaluation import GroundednessEvaluator

groundedness = GroundednessEvaluator(model_config)

result = groundedness(
query=什么是 Azure AI？,
context=Azure AI 是微软的 AI 平台...,
response=Azure AI 提供 AI 服务和工具。
)

print(f基础性得分：{result[groundedness]})
print(f原因：{result[groundedness_reason]})

使用 evaluate() 进行批量评估

python
from azure.ai.evaluation import evaluate

result = evaluate(
data=test_data.jsonl,
evaluators={
groundedness: groundedness,
relevance: relevance,
coherence: coherence
},
evaluator_config={
default: {
column_mapping: {
query: ${data.query},
context: ${data.context},
response: ${data.response}
}
}
}
)

print(result[metrics])

复合评估器

python
from azure.ai.evaluation import QAEvaluator, ContentSafetyEvaluator

所有质量指标合一

qaevaluator = QAEvaluator(modelconfig)

所有安全指标合一

safetyevaluator = ContentSafetyEvaluator(azureaiproject=projectscope)

result = evaluate(
data=data.jsonl,
evaluators={
qa: qa_evaluator,
contentsafety: safetyevaluator
}
)

评估应用程序目标

python
from azure.ai.evaluation import evaluate
from myapp import chatapp # 您的应用程序

result = evaluate(
data=queries.jsonl,
target=chat_app, # 可调用对象，接收查询，返回响应
evaluators={
groundedness: groundedness
},
evaluator_config={
default: {
column_mapping: {
query: ${data.query},
context: ${outputs.context},
response: ${outputs.response}
}
}
}
)

自定义评估器

基于代码

python
from azure.ai.evaluation import evaluator

@evaluator
def wordcountevaluator(response: str) -> dict:
return {word_count: len(response.split())}

在 evaluate() 中使用

result = evaluate( data=data.jsonl, evaluators={wordcount: wordcount_evaluator} )

基于提示

python
from azure.ai.evaluation import PromptChatTarget

class CustomEvaluator:
def init(self, model_config):
self.model = PromptChatTarget(model_config)

def call(self, query: str, response: str) -> dict:
prompt = f评分此响应 1-5：查询：{query}，响应：{response}
result = self.model.send_prompt(prompt)
return {custom_score: int(result)}

记录到 Foundry 项目

python
from azure.ai.projects import AIProjectClient
from azure.identity import DefaultAzureCredential

project = AIProjectClient.fromconnectionstring(
connstr=os.environ[AIPROJECTCONNECTION_STRING],
credential=DefaultAzureCredential()
)

result = evaluate(
data=data.jsonl,
evaluators={groundedness: groundedness},
azureaiproject=project.scope # 将结果记录到 Foundry
)

print(f查看结果：{result[studio_url]})

评估器参考

评估器	类型	指标
GroundednessEvaluator	AI	groundedness（1-5）
RelevanceEvaluator

最佳实践

1. 使用复合评估器进行综合评估
正确映射列——列不匹配会导致静默失败
记录到 Foundry以跟踪和比较各次运行
创建自定义评估器用于特定领域的指标
使用 NLP 评估器当您有真实答案时
安全评估器需要Azure AI 项目范围
批量评估比单行循环更高效

参考文件

文件	内容
references/built-in-evaluators.md	AI 辅助、基于 NLP 和安全评估器的详细模式及配置表
references/custom-evaluators.md

创建基于代码和基于提示的自定义评估器、测试模式 | | scripts/runbatch_evaluation.py | 用于运行质量、安全和自定义评估器批量评估的 CLI 工具 |

azure-ai-evaluation-pyAzure AI评估

azure-ai-evaluation-py

Azure AI Evaluation SDK for Python

Installation

Environment Variables

Built-in Evaluators

Quality Evaluators (AI-Assisted)

Quality Evaluators (NLP-based)

Safety Evaluators

Single Row Evaluation

Batch Evaluation with evaluate()

Composite Evaluators

Evaluate Application Target

Custom Evaluators

Code-Based

Prompt-Based

Log to Foundry Project

Evaluator Reference

Best Practices

Reference Files

Azure AI 评估 SDK for Python

安装

支持远程评估

环境变量

用于 AI 辅助评估器

用于 Foundry 项目集成

内置评估器

质量评估器（AI 辅助）

使用 Azure OpenAI 模型配置初始化

质量评估器（基于 NLP）

安全评估器

单行评估

使用 evaluate() 进行批量评估

复合评估器

所有质量指标合一

所有安全指标合一

评估应用程序目标

自定义评估器

基于代码

在 evaluate() 中使用

基于提示

记录到 Foundry 项目

评估器参考

最佳实践

参考文件

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement