当前位置: 首页 > news >正文

猫头虎 AI工具分享:一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP

一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP

随着互联网内容的不断增多,如何高效地抓取网页数据并提取结构化信息成为了开发者和数据科学家关注的重点。Hyperbrowser MCP 是一个功能强大的开源工具,旨在提供网页抓取、结构化数据提取、网页爬取和浏览器自动化操作的解决方案。它不仅能够将网页内容整理为 Markdown 格式或 JSON 数据,还支持快速的信息查找和自动化操作功能。本文将介绍如何使用 Hyperbrowser MCP 进行这些操作。

文章目录

  • 一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP
    • Hyperbrowser MCP 简介
      • 主要功能
    • 安装 Hyperbrowser MCP
      • 手动安装
      • 在 Cursor 中运行
      • 在 Windsurf 中运行
      • 开发环境
      • Claude Desktop 客户端配置示例
    • 功能概述
      • 常用工具
      • 安装 via Smithery
    • 配置 Hyperbrowser MCP
      • 配置文件示例
    • 结论

Hyperbrowser MCP 简介

Hyperbrowser MCP 提供了一个简单且强大的 API,使得用户能够从网页中提取结构化数据,并进行浏览器自动化操作。用户可以通过这一工具,快速抓取网页内容并转化为结构化数据,或者自动化执行常见的网页操作。它不仅支持多种数据格式输出,还能与 Bing 搜索引擎及多个智能体进行集成,实现复杂的自动化任务。

主要功能

  • 将网页内容整理为 Markdown 格式:支持将抓取到的网页内容转化为 Markdown 格式,方便保存和处理。
  • 网页图片截取:不仅抓取网页文本,还支持直接截取网页中的图片。
  • 网页内容的结构化提取:可以将混乱的 HTML 内容转换为结构化的 JSON 数据格式。
  • 自动化浏览器操作:支持通过智能体(如 OpenAI 的 CUA 和 Anthropic 的 Claude)进行快速、轻量级的浏览器自动化操作。

GitHub 地址:Hyperbrowser MCP GitHub

Hyperbrowser MCP

安装 Hyperbrowser MCP

手动安装

要安装 Hyperbrowser MCP 服务器,首先运行以下命令:

npx hyperbrowser-mcp <YOUR-HYPERBROWSER-API-KEY>

在 Cursor 中运行

如果你使用 Cursor,请将以下内容添加到 ~/.cursor/mcp.json 文件中:

{"mcpServers": {"hyperbrowser": {"command": "npx","args": ["-y", "hyperbrowser-mcp"],"env": {"HYPERBROWSER_API_KEY": "YOUR-API-KEY"}}}
}

在 Windsurf 中运行

如果你在 Windsurf 上运行,请将以下内容添加到 ./codeium/windsurf/model_config.json 文件中:

{"mcpServers": {"hyperbrowser": {"command": "npx","args": ["-y", "hyperbrowser-mcp"],"env": {"HYPERBROWSER_API_KEY": "YOUR-API-KEY"}}}
}

开发环境

如果你希望在开发环境中运行,可以通过源代码启动服务器:

  1. 克隆仓库:

    git clone git@github.com:hyperbrowserai/mcp.git hyperbrowser-mcp
    cd hyperbrowser-mcp
    
  2. 安装依赖:

    npm install # 或者 yarn install
    
  3. 构建项目:

    npm run build
    
  4. 运行服务器:

    node dist/server.js
    

Claude Desktop 客户端配置示例

以下是 Claude Desktop 客户端的配置示例:

{"mcpServers": {"hyperbrowser": {"command": "npx","args": ["--yes", "hyperbrowser-mcp"],"env": {"HYPERBROWSER_API_KEY": "your-api-key"}}}
}

功能概述

Hyperbrowser MCP 提供了多种实用工具,支持网页抓取、数据提取、浏览器自动化等操作。

常用工具

  1. scrape_webpage:从任何网页中提取格式化的内容(如 Markdown、截图等)。
  2. crawl_webpages:浏览多个链接页面并提取适合 LLM 使用的格式化内容。
  3. extract_structured_data:将混乱的 HTML 转换为结构化的 JSON 数据。
  4. search_with_bing:通过 Bing 搜索引擎查询网页信息。
  5. browser_use_agent:使用 Browser Use 智能体进行快速、轻量级的浏览器自动化操作。
  6. openai_computer_use_agent:使用 OpenAI 的 CUA 模型进行通用自动化任务。
  7. claude_computer_use_agent:使用 Claude 智能体执行复杂的浏览器任务。
  8. create_profile:创建新的持久性 Hyperbrowser 配置文件。
  9. delete_profile:删除现有的 Hyperbrowser 配置文件。
  10. list_profiles:列出现有的 Hyperbrowser 配置文件。

安装 via Smithery

如果你想通过 Smithery 安装 Hyperbrowser MCP Server,运行以下命令:

npx -y @smithery/cli install @hyperbrowserai/mcp --client claude

配置 Hyperbrowser MCP

Hyperbrowser MCP 支持灵活的配置和定制,用户可以根据需求进行相关设置,例如选择不同的智能体进行自动化任务,或配置自定义的服务器等。

配置文件示例

以下是一个典型的配置文件示例,用户可以根据自己的需求修改 API 密钥和相关参数:

{"mcpServers": {"hyperbrowser": {"command": "npx","args": ["-y", "hyperbrowser-mcp"],"env": {"HYPERBROWSER_API_KEY": "YOUR-API-KEY"}}}
}

结论

Hyperbrowser MCP 是一个强大的工具,适用于需要网页抓取、数据提取和浏览器自动化操作的场景。通过简单的配置和易于使用的 API,用户可以轻松实现网页抓取和自动化任务,极大提高工作效率。如果你正在寻找一个高效的网页数据抓取和浏览器自动化工具,Hyperbrowser MCP 无疑是一个值得尝试的解决方案。

更多详细信息和资源,请访问 Hyperbrowser MCP GitHub。

http://www.dtcms.com/a/266837.html

相关文章:

  • Web前端工程化
  • 网安系列【4】之OWASP与OWASP Top 10:Web安全入门指南
  • 一探 3D 互动展厅的神奇构造​
  • Querybook:一个开源大数据查询分析工具
  • Workflow or 自主智能体?网易CoreAgent如何打造企业级智能体平台新范式
  • OpenSearch添加仪表盘(elastic、es)
  • 全面分析软考《系统分析师》和《系统架构设计师》论文差异
  • go基础语法10问(2)
  • MySQL 事务详解:从基础操作到隔离级别与 MVCC 原理
  • vue3引入海康监控视频组件并实现非分屏需求一个页面同时预览多个监控视频;
  • 本地部署项目文档管理网站 MkDocs 并实现外部访问
  • Centos安装Jenkins
  • ZigBee通信技术全解析:从协议栈到底层实现,全方位解读物联网核心无线技术
  • OpenCV 图像操作:颜色识别、替换与水印添加
  • 传统架构开发VS PREEvision:一场效率与可靠性的降维打击
  • [C/C++内存安全]_[中级]_[如何避免数组访问越界]
  • 【精华】QPS限流等场景,Redis其他数据结构优劣势对比
  • 7.4_面试_JAVA_
  • python学习打卡:DAY 18 推断聚类后簇的类型
  • 在 Vue 3 中全局使用 Suspense 组件
  • 【内存】Linux 内核优化实战 - kernel.numa_balancing
  • [Linux]内核态与用户态详解
  • 1.1_3_2 三种交换方式的性能分析
  • PHP从字符串到数值的类型转换
  • 后端密码加密:守护用户数据的钢铁长城
  • 第三章 基于rtthread标准库的串口和shell应用
  • vue 循环无限滚动表格
  • 用distance_transform 检测线性凸包
  • Java项目:基于SSM框架实现的忘忧小区物业管理系统【ssm+B/S架构+源码+数据库+毕业论文+开题报告】
  • 双因子认证(2FA)是什么?从零设计一个安全的双因子登录接口