网页抓取
当需要获取网页内容时,按以下顺序尝试:
首选方案:URL 转 Markdown 服务
- 1. markdown.new/ (推荐)
- 用法:在网址前加
https://markdown.new/
- 例如:
https://markdown.new/https://example.com
- 适合 Cloudflare 支持的网站
- 2. r.jina.ai/ (备用)
- 用法:在网址前加
https://r.jina.ai/
- 例如:
https://r.jina.ai/https://example.com
- 兼容性好
- 3. defuddle.md/ (备用)
- 用法:在网址前加
https://defuddle.md/
- 例如: INLINECODE5
备选方案:爬虫工具
如果以上服务都无法获取,尝试 Scrapling:
- - 地址:https://github.com/D4Vinci/Scrapling
- 用法:
pip install scrapling 后使用
使用流程
- 1. 先尝试
r.jina.ai/{url} (最稳定) - 如果失败,尝试 INLINECODE8
- 再失败,尝试 INLINECODE9
- 都失败再考虑 Scrapling
注意事项
- - 不需要配置任何搜索 API
- 这些服务会将网页转换为纯文本/ Markdown 格式
- 适合大多数静态网页
- 对于需要登录的页面可能无效
网页抓取
当需要获取网页内容时,按以下顺序尝试:
首选方案:URL 转 Markdown 服务
- 1. markdown.new/ (推荐)
- 用法:在网址前加 https://markdown.new/
- 例如:https://markdown.new/https://example.com
- 适合 Cloudflare 支持的网站
- 2. r.jina.ai/ (备用)
- 用法:在网址前加 https://r.jina.ai/
- 例如:https://r.jina.ai/https://example.com
- 兼容性好
- 3. defuddle.md/ (备用)
- 用法:在网址前加 https://defuddle.md/
- 例如:https://defuddle.md/https://example.com
备选方案:爬虫工具
如果以上服务都无法获取,尝试 Scrapling:
- - 地址:https://github.com/D4Vinci/Scrapling
- 用法:pip install scrapling 后使用
使用流程
- 1. 先尝试 r.jina.ai/{url} (最稳定)
- 如果失败,尝试 markdown.new/{url}
- 再失败,尝试 defuddle.md/{url}
- 都失败再考虑 Scrapling
注意事项
- - 不需要配置任何搜索 API
- 这些服务会将网页转换为纯文本/ Markdown 格式
- 适合大多数静态网页
- 对于需要登录的页面可能无效