餐厅评价交叉验证

交叉参考小红书和大众点评的餐厅数据，提供经过验证的推荐。

快速开始

按地点和菜系类型查询餐厅：

bash

基础查询

crosscheck-restaurants 上海静安区日式料理

带筛选条件

crosscheck-restaurants 北京朝阳区火锅 --min-rating 4.5 --min-reviews 100

工作流程

1. 数据收集

同时查询两个平台：

大众点评：

- 获取匹配地点+菜系的餐厅
提取：名称、评分、评价数、价格区间、地址、标签

小红书：

- 搜索匹配地点+菜系的笔记/帖子
提取：餐厅名称、互动指标（点赞/收藏）、情感评分
注意：小红书数据需要爬取，无公开API

2. 数据匹配

使用模糊匹配跨平台匹配餐厅：

- 餐厅名称相似度（莱文斯坦距离）
位置邻近度（地址匹配）
处理名称变体（例如：银座寿司 vs 银座寿司静安店）

匹配逻辑详见 scripts/match_restaurants.py。

3. 一致性分析

基于以下指标计算一致性评分：

- 评分相关性（0-1）：平台间评分的相关性
互动验证（0-1）：高评分是否与高互动相关？
情感一致性（0-1）：用户情感在平台间是否一致？

公式：consistencyscore = (ratingcorr 0.5) + (engagementval 0.3) + (sentimentalign * 0.2)

4. 推荐评分

计算最终推荐评分：

recommendation_score = (
(dianping_rating * 0.4) +
(xhsengagementnormalized * 0.3) +
(consistency_score * 0.3)
) * 10

输出：0-10分制，>8.0 = 高置信度推荐

输出格式

📍 [地点] [菜系类型] 餐厅推荐

1. [餐厅名称]

🏆 推荐指数: X.X/10 ⭐ 大众点评: X.X (Xk评价) 💬 小红书: X.X⭐ (X笔记) 📍 地址: [地址] 💰 人均: ¥[价格] ✅ 一致性: [高/中/低] - [简要说明]

📊 平台对比:
- 大众点评标签: [标签]
- 小红书热词: [关键词]

⚠️ 注意: [任何差异或警告]

[继续列出前5-10家餐厅...]

阈值设置

- 最低评分：4.0/5.0（可配置）
最低评价数：大众点评50条，小红书20篇笔记（可配置）
最大结果数：按推荐评分排序的前10家餐厅
高一致性：评分 > 0.7
中一致性：评分 0.5-0.7
低一致性：评分 < 0.5（标记为需人工审核）

API与数据源

大众点评

- 方法：网页爬取（大众点评API需要商业合作）
基础URL：https://www.dianping.com
速率限制：最少每2秒1次请求
反爬措施：使用住宅代理，轮换用户代理

实现详见 scripts/fetch_dianping.py。

小红书

- 方法：网页爬取（无公开API）
基础URL：https://www.xiaohongshu.com
速率限制：最少每3秒1次请求
认证：需要Cookies才能完全访问

实现详见 scripts/fetch_xiaohongshu.py。

配置

编辑 scripts/config.py 设置：

python
DEFAULT_THRESHOLDS = {
min_rating: 4.0,
mindianpingreviews: 50,
minxhsnotes: 20,
max_results: 10
}

PROXY_CONFIG = {
use_proxy: True,
proxy_list: [http://proxy1:port, http://proxy2:port]
}

错误处理

- 未找到匹配：建议使用更宽泛的搜索词或附近区域
平台超时：使用指数退避重试，最多3次尝试
检测到速率限制：暂停60秒，轮换代理
低置信度结果：标记一致性 < 0.5的结果供人工审核

高级功能

情感分析

小红书帖子使用NLP提取：

- 食物质量提及
服务质量提及
氛围提及
价格/性价比提及

方法详见 references/sentiment_analysis.md。

模糊匹配

处理餐厅名称变体：

- 连锁店（例如：海底捞火锅 vs 海底捞静安店）
缩写（例如：鼎泰丰 vs 鼎泰丰上海店）
翻译差异

使用 thefuzz 库进行相似度评分。

依赖项

bash
pip install requests beautifulsoup4 pandas numpy thefuzz selenium lxml

完整列表详见 scripts/requirements.txt。

故障排除

问题：小红书返回空结果

- 解决方案：检查Cookies是否过期，重新认证

问题：大众点评阻止请求

- 解决方案：降低请求频率，轮换代理

问题：平台间匹配效果差

- 解决方案：调整 match_restaurants.py 中的相似度阈值

restaurant-crosscheck-v2餐厅交叉验证

restaurant-crosscheck-v2

Restaurant Review Cross-Check

Quick Start

Workflow

1. Data Collection

2. Data Matching

3. Consistency Analysis

4. Recommendation Score

Output Format

Thresholds

API & Data Sources

Dianping

Xiaohongshu

Configuration

Error Handling

Advanced Features

Sentiment Analysis

Fuzzy Matching

Dependencies

Troubleshooting

References

餐厅评价交叉验证

快速开始

基础查询

带筛选条件

工作流程

1. 数据收集

2. 数据匹配

3. 一致性分析

4. 推荐评分

输出格式

阈值设置

API与数据源

大众点评

小红书

配置

错误处理

高级功能

情感分析

模糊匹配

依赖项

故障排除

参考资料

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement