当前位置: 首页 > news >正文

大模型——Crawl4AI使用JsonCssExtractionStrategy进行结构化数据提取

大模型——Crawl4AI使用JsonCssExtractionStrategy进行结构化数据提取

本章节将详细介绍Crawl4AI中的JsonCssExtractionStrategy,利用CSS选择器从网页中提取结构化数据。将涵盖模式定义、提取加密货币价格的实际示例、该方法的优势以及有效使用的技巧。

概述

JsonCssExtractionStrategy是Crawl4AI的一项强大功能,允许用户使用CSS选择器从网页中提取结构化数据。这种方法特别适用于需要从一致的HTML结构中提取特定数据点的情况,例如表格或重复的元素。

该策略通过定义一套模式(schema)来工作,模式中包含以下内容:

  1. 重复元素的基础CSS选择器
  2. 从每个元素中提取的字段,每个字段都有自己的CSS选择器

这种策略的执行速度快且高效,因为它不依赖于外部服务(如大语言模型)进行数据提取。

示例:从Coinbase提取加密货币价格

下面是一个提取Coinbase探索页面上的加密货币价格的示例。

import json
import asyncio
from crawl4ai import AsyncWebCrawler
from crawl4ai.extrac

相关文章:

  • 真题卷001——算法备赛
  • PCIeSwitch 学习
  • MySQL的触发器
  • 本土DevOps革命:Gitee如何撬动中国企业的数字化转型新动能
  • 哈希表的实现02
  • 【C++/Qt shared_ptr 与 线程池】合作使用案例
  • 非受控组件在React中的使用场景有哪些?
  • node.js文件系统(fs) - 创建文件、打开文件、写入数据、追加数据、读取数据、创建目录、删除目录
  • 【带文档】网上点餐系统 springboot + vue 全栈项目实战(源码+数据库+万字说明文档)
  • 操作系统|| 虚拟内存页置换算法
  • COMSOL随机参数化表面流体流动模拟
  • 记录算法笔记(2025.5.15)将有序数组转换为二叉搜索树
  • 城市排水管网流量监测系统解决方案
  • CS016-4-unity ecs
  • MySQL高效开发规范
  • 基于SpringBoot的房屋租赁管理系统
  • C语言的9*9乘法表(两种思路,选择适合自己的。)
  • 使用 OpenCV 将图像中标记特定颜色区域
  • 根据台账批量制作个人表
  • idea运行
  • 国际金价下跌,中概股多数上涨,穆迪下调美国主权信用评级
  • 朝鲜称将在各领域采取反制措施,应对美国敌对挑衅
  • 美国务卿会见叙利亚外长,沙特等国表示将支持叙利亚重建
  • 2000多年前的“新衣”长这样!马王堆文物研究新成果上新
  • 350种咖啡主题图书集结上海,20家参展书店买书送咖啡
  • 专家:家长要以身作则,孩子是模仿者学习者有时也是评判者