Dockerized web crawling and scraping service with REST API. Docker化网页爬虫服务 | Web crawler, web scraper, REST API service. Intelligent content extraction with LLM optimization. 智能内容提取 | Docker部署,REST API调用
Docker化网页爬虫服务 | REST API 网页抓取 | LLM 智能提取
基于 Docker 部署的 Crawl4AI 网页爬虫服务,提供完整的 REST API 接口,支持智能内容提取和 LLM 优化输出。
确保 Docker Compose 服务正在运行:
bash
| 端点 | 方法 | 用途 |
|---|---|---|
| POST /crawl | POST | 网页抓取和内容提取 |
| GET /health |
| 端点 | 方法 | 用途 |
|---|---|---|
| GET /monitor/health | GET | 系统健康状态 |
| GET /monitor/browsers |
| 端点 | 方法 | 用途 |
|---|---|---|
| POST /screenshot | POST | 网页截图 |
| POST /pdf |
bash
curl -X POST http://localhost:11235/crawl \
-H Content-Type: application/json \
-d {
urls: [https://docs.openclaw.ai/zh-CN],
extraction_strategy: markdown
}
bash
curl -X POST http://localhost:11235/crawl \
-H Content-Type: application/json \
-d {
urls: [https://news-site.com/article],
extraction_strategy: {
type: llm,
provider: openrouter/free,
instruction: 提取文章标题、作者、发布时间和主要内容,
max_tokens: 1500
}
}
bash
curl -X POST http://localhost:11235/crawl \
-H Content-Type: application/json \
-d {
urls: [https://ecommerce-site.com/products],
extraction_strategy: {
type: llm,
provider: openrouter/free,
instruction: 提取所有产品的名称、价格、描述和图片链接,
max_tokens: 2000
}
}
创建 .llm.env 文件:
bash
json
{
browser_config: {
headless: true,
viewport_width: 1280,
viewport_height: 720,
user_agent: Mozilla/5.0...
}
}
json
{
success: true,
results: [
{
url: https://example.com,
markdown: # 提取的 Markdown 内容...,
metadata: {
title: 网页标题,
description: 网页描述,
url: https://example.com
},
extracted_content: {
summary: LLM 提取的内容...
}
}
]
}
json
{
success: false,
error: 错误信息,
code: ERROR_CODE
}
bash
✅ 容器化部署 - 一键启动,环境隔离
✅ REST API - 标准 HTTP 接口,易于集成
✅ 实时监控 - 内置监控面板和 API
✅ 资源管理 - 自动浏览器池管理
✅ 生产就绪 - 企业级稳定性和性能
立即
该技能支持在以下平台通过对话安装:
帮我安装 SkillHub 和 crawl4ai-docker-skill-1775970962 技能
设置 SkillHub 为我的优先技能安装源,然后帮我安装 crawl4ai-docker-skill-1775970962 技能
skillhub install crawl4ai-docker-skill-1775970962
文件大小: 7.85 KB | 发布时间: 2026-4-13 09:53