CrewAI + Bright Data MCP 打造“点评情报智能体”:从抓取到洞察
手把手带你把 Bright Data MCP 的抓取工具接到 CrewAI 工作流里,用 3 个智能体(抓取 → 情感 → 洞察)跑通端到端分析,并产出中文的高质量 Markdown 商业报告。文中给出了可直接复用的工具封装与 write_report_md
实战版本。
三分钟搭建自动抓取评价数据分析工作流
MCP工具地址:Bright Data MCP
我是 Fanstuck,一路以来,我持续输出了多个系列文章,从《Prompt工程零基础入门到精通》到《大模型微调全流程指南》,再到《DeepSeek+MCP 智能体落地案例》,这些作品不仅是技术笔记,也是我和读者共同成长的见证。我的目标,是搭建一座桥梁,把高深的 AI 理论与工程实践,转化为读者可以即学即用的知识资产。如果你对 大模型创新应用、AI 技术发展脉络、以及行业落地实践 感兴趣,那么请持续关注 Fanstuck ——这里有最新的探索,有深入的思考,也有未来的方向。
为什么要做“点评情报智能体”
无论你做电商、SaaS 还是线下连锁,公开点评里藏着一手的用户体验与竞品信息:谁在抱怨什么、价格是否敏感、哪些功能被反复夸/踩。把这些零散点评自动化地“抓-析-写”成一份面向业务的洞察报告,就是这篇文章要实现的事情。
什么是 CrewAI?
CrewAI 是一个用于构建协作式 AI 智能体团队的开源框架。你可以定义智能体的角色、目标和工具来执行复杂工作流。每个智能体处理特定任务,并协同朝共同目标推进。
CrewAI 包括:
-
Agent(智能体):具有明确职责与工具的 LLM 驱动“工作者”
-
Task(任务):具备清晰输出要求的具体工作
-
Tool(工具):智能体用于专业化工作的函数,如数据提取
-
Crew(团队):共同协作的一组智能体
连接 MCP(STDIO 方式)与工具封装
相比 SSE,我们在 Windows 下更推荐 STDIO:用 npx @brightdata/mcp
起一个本地进程,CrewAI 工具通过 mcp
Python SDK 的 stdio_client
调用远端工具。
要点:
-
严格按 Bright MCP 的工具签名传参(这会避免大多数“参数格式错误”)。
-
给出一个智能抓取器:先试
scrape_batch
,失败就逐个scrape_as_markdown
,并收集错误。
Bright 的 MCP 工具这里我们用到 4 个:
scrape_as_markdown
、scrape_batch
、search_engine
、search_engine_batch
;它们分别对应单页抓取、批量抓取、单次搜索、批量搜索。
三个智能体与任务(CrewAI)
为了对齐业务目标,我们把流程拆到三个智能体:
-
Review Data Collector:面向 MCP 工具调用、解析 Markdown,产出统一的评论 JSON(平台、文本、评分、时间、用户等字段)。
-
Sentiment Analysis Specialist:做方面情感(支持/定价/易用性),输出每个方面的分值、情绪类别与关键词主题。
-
Business Intelligence Analyst:把情感结果翻译成经营层能看懂的“管理摘要 + 行动清单 + 风险 + 优势 + 推荐聚焦”。
这种角色拆分、以及任务说明(expected_output)与流程顺序的做法,和官方文章的示例是保持一致的。(Bright Data)
任务提示的关键:
-
抓取任务描述要明确:先用批量抓取,失败再逐页;返回结构化 JSON。
-
情感任务明确 3 个方面,并给定期望的 JSON 结构。
-
洞察任务要求输出管理摘要等 5 个部分的 JSON 字段。
方面情感与打分(可选用 TextBlob/或 LLM 直出)
我们提供两种路径:
-
简化版(TextBlob):把含关键词的句子过一遍极性得分,映射到 1–5 分,利于离线验证;
-
大模型直出:把抓到的评论聚合丢给 LLM,请它按方面聚合并打分,返回结构化 JSON。
运行与产出
-
先用“简单页面”(非强风控)测试链路:
example.com
、httpbin.org/html
; -
通了后再替换到目标站点(如电商/点评平台的真实 URL);
-
控制台会打印三步任务的执行过程;
-
运行完成后,在项目根目录得到一份中文的
review_report.md
商业报告。