当前位置: 首页 > news >正文

【开源项目-爬虫】Firecrawl

看到其他项目引用了这个项目 Firecrawl

用免费额度试了一下,这个项目和之前的 https://r.jina.ai/ 很像(类似的还有 https://www.scrapingbee.com/?),将爬取到的网页转换为 markdown 格式,这样大语言模型用起来就很方便

商业模式就是卖 api,看了一下如果长期大量跑价格不便宜

不过好在还可以本地部署,本地部署的话,不知道代理什么的怎么配置,没有细看


分别用小红书的浏览器首页(小红书 - 你的生活指南)和详情页试了一下

firecrawljina
可以从首页拿到详情页链接可以可以
可以拿到详情页标题 + 图片可以拿不到

通过简单的测试看起来比 jina 强一点点,不过 jina 实际可以白嫖,但 firecrawl 没有深入研究能不能白嫖


官网地址(可以免费尝试):Firecrawl

github 地址(fork 2.6k,star 30k+):GitHub - mendableai/firecrawl: 🔥 Turn entire websites into LLM-ready markdown or structured data. Scrape, crawl and extract with a single API.

相关文章:

  • windows C++ 申请大量内存
  • Spring boot3-Http Interface: 声明式编程
  • 第十九:channel 的使用
  • Docker容器安装软件(完整版)
  • 阿里云短信发送(工厂模式实现)
  • C++:二分习题
  • never_give_up
  • 【C++ 系列文章 基础 01 -- std::string 与 fmt::format】
  • Java线程安全
  • Vue3 深度解析:构建现代Web应用的全新范式
  • 【PCIe 总线及设备入门学习专栏 3 -- PCIe 三种路由方式详细介绍】
  • 淘晶驰 屏幕 应用 之 esp8266/arduino 简约时钟 2025/3/12
  • sql靶场-时间盲注(第九、十关)保姆级教程
  • Trae AI IDEA安装与使用
  • 【机器学习】主成分分析法(PCA)
  • 数组总和 (leetcode 40
  • MySql索引下推(ICP)是什么?有什么用?
  • logback希望特定的error日志写入到特定文件
  • Qt/C++音视频开发82-系统音量值获取和设置/音量大小/静音
  • leetcode_字符串 49. 字母异位词分组
  • 年在沪纳税350亿人民币,这些全球头部企业表示“对上海承诺不会变”
  • 证券日报:降准今日正式落地,年内或还有降准空间
  • 绿景中国地产:洛杉矶酒店出售事项未能及时披露纯属疏忽,已采取补救措施
  • 首个偏头痛急性治疗药物可缓解前期症状
  • 横跨万里穿越百年,《受到召唤·敦煌》中张艺兴一人分饰两角
  • 安徽省委副秘书长、省委政研室主任余三元调任省社科院院长