返回顶部
i

image-crawler图片爬虫

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
107
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

image-crawler

Image Crawler

通过百度/Bing图片搜索批量采集图片,内置去重、关键词拓展、进度监控。

快速流程

  1. 1. 确认需求 → 2. 生成拓展关键词 → 3. 构造命令 → 4. 运行并监控 → 5. 汇报结果

Step 1: 确认采集需求

从用户请求中提取:

  • - 关键词(必须):采集什么图片
  • 数量(默认 100):需要多少张
  • 输出目录(默认 ./crawled_images):存放位置
  • 引擎(默认 baidu):百度通常更稳定,中文搜索效果更好

Step 2: 关键词拓展

利用 LLM 能力生成 5-15 个拓展关键词,传入 --expand-terms。

拓展策略(按领域选择):

设备/产品类:品牌 + 型号 + 使用场景

用户说挖掘机 → 三一,卡特,小松,沃尔沃,日立,临工,大型,小型,施工现场,工地

动物/植物类:品种 + 环境 + 状态

用户说猫 → 橘猫,英短,布偶,暹罗,黑猫,可爱,睡觉,户外

建筑/场景类:风格 + 地点 + 时间

用户说别墅 → 欧式,中式,现代,豪华,花园,室内,外观,夜景

通用原则:拓展词应增加多样性而非重复。中英文混合可增加搜索覆盖面。

Step 3: 构造并运行命令

脚本位置:scripts/image_crawler.py(相对于此 SKILL.md)

bash
python {skilldir}/scripts/imagecrawler.py \
-k 关键词1 -k 关键词2 \
-n 数量 \
-o 输出目录 \
-e baidu \
--expand --expand-terms 拓展词1,拓展词2,... \
--json

始终使用 --json 模式以便解析输出。

典型示例:
bash

采集 200 张挖掘机图片


python scripts/image_crawler.py \
-k 挖掘机 -k excavator \
-n 200 -o ./excavator_images \
--expand --expand-terms 三一,卡特,小松,沃尔沃,临工,大型,施工现场 \
--json

Step 4: 监控采集过程

以后台模式运行脚本,定期检查输出:

  1. 1. 用 exec 以 background: true 启动脚本
  2. 用 process(poll) 获取最新输出
  3. 解析 JSON 行,关注以下事件:
type含义Agent 动作
progress下载进度向用户报告进度和预估时间
stall
采集停滞 | 提醒用户可能有问题 | | error | 严重错误 | 立即中断并告知用户(反爬/网络问题) | | done | 采集完成 | 汇报统计信息 |

停滞判断:如果 poll 长时间无新 progress 输出(>60s),主动检查进程状态。

Step 5: 汇报结果

采集完成后,向用户报告:

  • - 成功下载数 / 目标数
  • 去重移除数
  • 总耗时
  • 输出目录路径
  • 如有失败,说明可能原因(反爬、网络、源站不可用)

追加采集

脚本支持跨次运行去重。如果用户需要更多图片,直接用相同输出目录再次运行:

  • - .dedup_hashes.json 自动跳过已有图片
  • 文件编号自动递增,不会覆盖

详细接口和自定义

参见 references/customization.md

  • - 完整 CLI 参数表
  • JSON 输出格式详解
  • 去重机制说明
  • 添加新搜索引擎指南
  • 常见问题排查

脚本模板

scripts/ 下包含两个独立可用的引擎模板,适合用户学习或二次开发:

  • - baiducrawler.py — 百度图片搜索,接口清晰,中文搜索效果好
  • bingcrawler.py — Bing图片搜索,英文搜索覆盖面广

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 image-crawler-1775966642 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 image-crawler-1775966642 技能

通过命令行安装

skillhub install image-crawler-1775966642

下载

⬇ 下载 image-crawler v1.0.0(免费)

文件大小: 15.87 KB | 发布时间: 2026-4-13 10:37

v1.0.0 最新 2026-4-13 10:37
image-crawler v1.0.0 – 首发版本

- 支持通过百度和Bing图片搜索按关键词批量采集图片
- 内置智能关键词拓展,提升图片多样性
- 提供图片去重(URL与内容hash,支持持久化)
- 支持进度监控、停滞检测与自动化错误处理
- 脚本输出标准JSON,便于集成和结果追踪
- 支持追加采集并自动跳过已下载图片

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部