返回顶部
e

ecommerce-market-analyzer电商市场分析器

Scrape e-commerce homepages from multiple websites in a target market, handle popups automatically, capture screenshots and HTML, extract product data, and generate comprehensive market analysis reports. Use when asked to "analyze [market] e-commerce market", "scrape e-commerce websites", "find hot products in [country]", "analyze product trends", or "generate market report for [region]". Works with German, English, and other international markets.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
171
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

ecommerce-market-analyzer

电子商务市场分析器

用于抓取电子商务网站、处理弹窗、提取产品数据并生成全面市场分析报告的自动化工作流。

工作流程概览

本技能遵循4步工作流程:

  1. 1. 设置与抓取 - 运行Playwright抓取器捕获首页
  2. 视觉分析 - 分析截图以识别产品类别
  3. 数据提取 - 解析HTML提取具体产品和价格
  4. 报告生成 - 创建全面的市场分析报告

用户提供网站列表

步骤1:运行抓取器(自动处理弹窗)

步骤2:视觉分析截图

步骤3:从HTML中提取结构化数据

步骤4:生成最终报告



步骤1:设置与抓取

快速开始

当用户提供电子商务网站列表时,立即运行抓取器:

bash

创建输出目录


mkdir -p screenshots_clean

运行抓取器

uv run python scripts/scrape_websites.py

自定义网站列表

编辑scripts/scrape_websites.py并更新WEBSITES列表:

python
WEBSITES = [
amazon.de,
ebay.de,
otto.de,
# 添加更多网站...
]

主要功能

抓取器自动:

  • - 处理Cookie同意弹窗(德语、英语、通用选择器)
  • 处理地区/语言选择对话框
  • 捕获全页截图(1920x1080)
  • 保存HTML源代码
  • 使用德语区域设置(或为其他市场自定义)
  • 等待页面稳定

重要提示: 脚本使用references/popup_patterns.md中的弹窗模式。处理新型弹窗时请参考此文件。

预期输出

运行后,您将获得:

  • - screenshotsclean/.png - 全页截图
  • screenshotsclean/.html - HTML源文件
  • 控制台输出成功/失败摘要

成功率目标: 85-95%

常见失败原因:

  • - 反机器人保护(需要手动干预)
  • HTTP/2协议错误(某些网站阻止自动化)
  • 加载缓慢的网站超时



步骤2:视觉分析

读取截图

抓取后,读取截图文件以视觉识别:

  • - 产品类别
  • 特色产品
  • 促销商品
  • 视觉设计模式

示例方法:
python
from pathlib import Path

screenshotdir = Path(screenshotsclean)
screenshots = list(screenshot_dir.glob(*.png))

使用读取工具查看截图

for screenshot in screenshots[:5]: # 从5个网站开始 # 使用读取工具查看图片 # 记录产品类别和特色商品

需要关注的内容

产品类别:

  • - 服装与时尚(Bekleidung)
  • 电子产品(Elektronik)
  • 家居与家具(Möbel & Wohnen)
  • 食品与杂货(Lebensmittel)
  • 图书与媒体(Bücher)
  • 美容与个人护理(Beauty & Pflege)
  • 运动与户外(Sport)
  • 玩具与婴儿用品(Spielzeug & Baby)

特色产品:

  • - 首页横幅
  • 促销区域
  • 今日特惠商品
  • 新品上市

记录多个网站中重复出现的模式——这些表明市场趋势。



步骤3:数据提取

策略选择

根据网站结构选择提取策略。完整模式请参见references/htmlparsingpatterns.md。

快速决策树:

  1. 1. 尝试JSON-LD模式提取(最适合结构化数据)
  2. 回退到数据属性提取
  3. 回退到基于类的提取
  4. 最后手段:关键词匹配

示例:从REWE.de提取

python
import re
from pathlib import Path

htmlfile = Path(screenshotsclean/rewe.de.html)
content = htmlfile.readtext(encoding=utf-8)

REWE特定模式

title_pattern = rdata-offer-title=([^]+) pricepattern = r
_tag-price>([^<]+)

titles = re.findall(title_pattern, content)
prices = re.findall(price_pattern, content)

for i, title in enumerate(titles[:10]):
price = prices[i] if i < len(prices) else N/A
print(f{title}: {price}€)

平台特定解析

每个电子商务平台都有独特的HTML结构。请参考references/htmlparsingpatterns.md了解:

  • - Amazon.de模式
  • eBay.de模式
  • Otto.de模式
  • Zalando/AboutYou模式
  • REWE/Lidl超市模式
  • 以及更多...

价格标准化

始终标准化价格:
python
def normalizeprice(pricestr):
将德语格式(1.234,56€)转换为浮点数
pricestr = pricestr.replace(€, ).replace(EUR, ).strip()
if , in pricestr and . in pricestr:
pricestr = pricestr.replace(., ).replace(,, .)
elif , in price_str:
pricestr = pricestr.replace(,, .)
try:
return float(price_str)
except:
return None

处理大文件

对于超过25k token的HTML文件:
bash

使用grep搜索特定模式


grep -o data-product-name=[^]* amazon.de.html | head -20

或提取特定部分

grep -A 5 product-title ebay.de.html

提取最佳实践

  1. 1. 尝试多种模式 - 从JSON-LD开始,根据需要回退
  2. 验证提取结果 - 检查合理长度(10-100字符)
  3. 去重 - 使用集合跟踪已见产品
  4. 限制结果 - 每个网站上限10-20个产品
  5. 处理编码 - 始终使用encoding=utf-8

步骤4:报告生成

使用报告模板

复制并自定义assets/report_template.md:

bash
cp assets/reporttemplate.md finalreport.md

报告结构

模板包含以下部分:

  1. 1. 执行摘要 - 主要发现
  2. 热门产品类别 - 带百分比的排名列表
  3. 已验证的产品价格 - 带精确价格的提取数据
  4. 平台特定分析 - 按网站细分
  5. 市场趋势 - 增长趋势和消费者行为
  6. 季节性特征 - 当前和预测
  7. 技术实施 - 成功指标和局限性
  8. 商业洞察 - 机会和建议
  9. 数据来源 - 成功/失败细分
  10. 结论 - 可执行的要点

填写模板

替换占位符标记:

  • - {MARKET} → 德国、英国、美国等
  • {NUMSITES} → 23、25等
  • {DATE} → 2026-03-19
  • {SUCCESSRATE} → 92
  • {CATEGORY1} → 服装与时尚
  • {PERCENTAGE1} → 28
  • 以此类推...

数据质量指标

包含以下指标:

  • - 成功率:成功抓取的网站百分比
  • 弹窗处理:已处理弹窗的网站数量
  • 价格准确性:已验证价格的百分比
  • 截图质量:分辨率和文件大小
  • HTML完整性:平均文件大小

写作技巧

双语写作(针对德国市场):

  • - 产品名称:德语 + 中文/英文翻译
  • 类别:Bekleidung / 服装
  • 全程保持两种语言

具体化:

  • - ❌ 电子产品很受欢迎
  • ✅ AirPods 4(eBay上89,90€)、PlayStation 5和三星智能手机是热门电子产品

包含证据:

  • - 引用截图文件名
  • 引用精确价格及来源
  • 将特定平台与产品关联



故障排除

问题:弹窗未关闭

解决方案: 检查references/popup_patterns.md中特定网站的内容。如有需要,添加自定义选择器:

python

在scripts/scrapewebsites.py中,添加到popupselectors列表:


popup_selectors = [
# ... 现有选择器 ...
button:has-text(Neue Popup Text), # 添加自定义
]

问题:HTML解析返回空结果

诊断:

  1. 1. 检查HTML文件是否存在且有内容
  2. 使用grep验证模式:grep -o your-pattern file.html
  3. 尝试references/htmlparsingpatterns.md中的替代模式
  4. 使用关键词匹配作为回退方案

###

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 ecommerce-market-analyzer-skill-1776122942 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 ecommerce-market-analyzer-skill-1776122942 技能

通过命令行安装

skillhub install ecommerce-market-analyzer-skill-1776122942

下载

⬇ 下载 ecommerce-market-analyzer v1.0.0(免费)

文件大小: 20.59 KB | 发布时间: 2026-4-17 14:43

v1.0.0 最新 2026-4-17 14:43
E-commerce Market Analyzer 1.0.0 – initial release

- Automates scraping of multiple e-commerce homepages, with popup/dialog handling for German and international sites.
- Captures full-page screenshots and HTML, normalizes product price formats, and extracts product/category data.
- Includes a step-by-step workflow: setup and scrape, visual analysis, data extraction, and comprehensive market report generation.
- Provides templates, parsing guides, selector references, and output/report quality metrics for replicable market analysis.
- Supports bilingual (e.g., German-English) report generation and offers troubleshooting steps for common scraping issues.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部