返回顶部
d

douyin-scraper 抖音图文采集

抖音图文笔记采集工具。搜索关键词 → 自动筛选「图文·一周内」→ Playwright 截图(绕过反爬虫)→ Baidu OCR 识别图片文字 → 输出 Markdown 报告(含热度评分)。当用户提到"抖音图文采集"、"抖音笔记抓取"、"抖音爬虫"、"抖音内容采集"等场景时加载此技能。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
105
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

douyin-scraper

douyin-scraper

抖音图文笔记采集工具 —— 一条命令完成:搜索 → 筛选图文 → 截图 → OCR → Markdown 报告。

⚠️ 前置配置

1. 安装依赖

bash
pip install playwright requests python-dotenv
python -m playwright install chromium

2. 配置 Baidu PaddleOCR Token

在技能目录创建 .env:

BAIDUPADDLEOCRTOKEN=你的token

获取 Token:访问 百度 AI Studio,免费注册,每天 1 万次免费调用。

3. 登录抖音(只需一次)

bash
python /scripts/login.py

浏览器打开抖音,扫码登录后关闭。登录状态自动保存,后续无需重复操作。



使用

bash

采集 10 篇图文笔记(含 OCR)


python path>/scripts/fullworkflow.py --keyword 韩国医美

指定数量

python path>/scripts/fullworkflow.py --keyword 减肥餐 --count 5

跳过 OCR(仅截图)

python path>/scripts/fullworkflow.py --keyword 咖啡 --no-ocr
参数说明默认值
--keyword搜索关键词必填
--count
采集笔记数量 | 5 | | --no-ocr | 跳过 OCR | 关闭 |

输出

报告保存至 output/notes{keyword}{timestamp}.md,图片保存至 data/images/。

每篇笔记包含:

  • - 🔥 热度分数(点赞数 / 发布天数)及计算公式
  • 👍 点赞数、发布时间、作者、原文链接
  • 📝 原文描述
  • 🔍 OCR 识别的图片文字(支持多图)
  • 🖼️ 本地截图路径

技术特点

  • - Playwright 截图:通过 element.screenshot() 截取内容图,绕过抖音图片 URL 反爬虫
  • 图文过滤:自动识别并跳过视频,只采集「图文」类型笔记
  • OCR 噪音过滤:自动去除截图中的抖音导航栏文字(精选/推荐/关注 等)
  • 多图支持:一篇图文多张图片逐张截图 + OCR,合并识别结果
  • 反检测:有头浏览器(headless=False)+ 拟人操作节奏,避免触发验证码
  • 热度公式:likes / days_ago,越新越热排越前

目录结构

douyin-scraper/
├── scripts/
│ ├── full_workflow.py # 主流水线
│ └── login.py # 登录脚本
├── data/
│ └── images/ # 截图
├── output/ # Markdown 报告
├── profile/ # 浏览器登录状态
└── .env # Token 配置

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 douyin-scraper-1776009741 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 douyin-scraper-1776009741 技能

通过命令行安装

skillhub install douyin-scraper-1776009741

下载

⬇ 下载 douyin-scraper v1.0.0(免费)

文件大小: 14.45 KB | 发布时间: 2026-4-13 10:06

v1.0.0 最新 2026-4-13 10:06
抖音图文笔记采集工具。搜索关键词 → 自动筛选「图文·一周内」→ Playwright 截图(绕过反爬虫)→ Baidu OCR 识别图片文字 →
输出 Markdown 报告(含热度评分)。

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部