当前位置: 首页 > news >正文

浅谈——数据采集爬虫

随着大模型的火爆与光速崛起,不论是金融、医疗还是社会治理,可以说是各个领域都已融入人工智能,探索融入大模型。数据、算力、算法是人工智能的重要三大因素,有时候还会将场景也算上,看作是人工智能应用发展的重要四大因素。

那为什么会将数据排在第一位呢?其实几大因素并不存在优劣顺序之分。恰巧杨杨哥从事与数据相关工作,且本期内容也与数据相关,所以将数据排在了第一位。

提到数据,首先肯定要介绍一下Common Crawl。Common Craw| 是一个海量的、非结构化的、多语言的网页数据集。它包含了超过8年的网络爬虫数据集,包含原始网页数据(WARC)、元数据(WAT)和文本提取(WET),拥有PB级规模。它是一家非营利性组织创建的一个开放数据平台。国内外很多研究、应用的数据,其都占有一定的比例,是一个公认的重要数据来源。如Chat-GPT3的训练集中,Common Crawl的数据占60%。当然,Common Crawl的原始数据是杂糅的,需要通过一系列的数据清洗洗掉脏数据,再通过数据处理、数据增强、人工过滤等方式,最终形成标准、规范的高质量数据。

简要介绍Common Crawl之后,回归正题,开始学习数据采集中的网络爬虫。

数据采集是我们在分析和解决实际问题时非常重要的环节。准确地收集和整理数据可以为后续的数据分析和处理打下坚实的基础。数据采集其实有很多种方式,比如:

(1)数据库查询:数据库是一种结构化存储数据的方式,可以通过查询来获取所需的数据。

(2)网络爬虫:网络爬虫是一种自动收集和解析网页信息的程序。

(3)API获取: API 是一种提供特定功能的-一组接口,可以被其他应用程序调用。

(4)日志文件:日志文件是一种记录程序运行过程中各种信息的文件。

(5)传感器数据:传感器是一种能够感知和测量物理量的设备。

(6)问卷调查: 问卷调查是一种通过向参与者发放问卷并收集其回答信息的方法。

(7)公开数据源:公开数据源是指由政府、组织或个人公开提供的数据集。

http://www.dtcms.com/a/270234.html

相关文章:

  • 实战:Android 15 (API 35) 适配 构建踩坑全记录
  • 板凳-------Mysql cookbook学习 (十一--------5)
  • 《每日AI-人工智能-编程日报》--2025年7月8日
  • Softhub软件下载站实战开发(十六):仪表盘前端设计与实现
  • 香港风水(原生)林地的逻辑分类器
  • 缺乏项目进度预警机制,如何建立预警体系
  • 从零开始手写嵌入式实时操作系统
  • 【c++八股文】Day4:右值,右值引用,移动语义
  • 使用协程简化异步资源获取操作
  • qt-C++语法笔记之Stretch与Spacer的关系分析
  • Python Web应用开发之Flask框架高级应用(三)——蓝图(Blueprints)
  • openssl 生成国密证书
  • 北京-4年功能测试2年空窗-报培训班学测开-第四十五天
  • [附源码+数据库+毕业论文]基于Spring+MyBatis+MySQL+Maven+vue实现的供电公司安全生产考试管理系统,推荐!
  • 【OD机试题解法笔记】跳马
  • MySQL8.0.40.0MSI安装教程
  • [特殊字符] AlphaGo:“神之一手”背后的智能革命与人机博弈新纪元
  • 汽车功能安全系统阶段开发【技术安全方案TSC以及安全分析】5
  • TypeScript 接口全解析:从基础到高级应用
  • Crazyflie无人机集群控制笔记(一)通过VRPN实时对接Crazyswarm2与NOKOV度量动捕数据
  • 数据湖技术之Iceberg-03 Iceberg整合Flink 实时写入与增量读取
  • Linux文件描述符与标准I/O终极对比
  • BabelDOC,一个专为学术PDF文档设计的翻译和双语对比工具
  • C#使用Semantic Kernel实现Embedding功能
  • 解决GitHub仓库推送子文件夹后打不开的问题
  • C++高频知识点(六)
  • vue3使用inspira-ui教程【附带源码】
  • Ansible 介绍及安装
  • ubuntu24.04(vmware workstation 17.6pro)无法安装vmtools的问题解决
  • mini-program01の系统认识微信小程序开发