浅谈——数据采集爬虫
随着大模型的火爆与光速崛起,不论是金融、医疗还是社会治理,可以说是各个领域都已融入人工智能,探索融入大模型。数据、算力、算法是人工智能的重要三大因素,有时候还会将场景也算上,看作是人工智能应用发展的重要四大因素。
那为什么会将数据排在第一位呢?其实几大因素并不存在优劣顺序之分。恰巧杨杨哥从事与数据相关工作,且本期内容也与数据相关,所以将数据排在了第一位。
提到数据,首先肯定要介绍一下Common Crawl。Common Craw| 是一个海量的、非结构化的、多语言的网页数据集。它包含了超过8年的网络爬虫数据集,包含原始网页数据(WARC)、元数据(WAT)和文本提取(WET),拥有PB级规模。它是一家非营利性组织创建的一个开放数据平台。国内外很多研究、应用的数据,其都占有一定的比例,是一个公认的重要数据来源。如Chat-GPT3的训练集中,Common Crawl的数据占60%。当然,Common Crawl的原始数据是杂糅的,需要通过一系列的数据清洗洗掉脏数据,再通过数据处理、数据增强、人工过滤等方式,最终形成标准、规范的高质量数据。
简要介绍Common Crawl之后,回归正题,开始学习数据采集中的网络爬虫。
数据采集是我们在分析和解决实际问题时非常重要的环节。准确地收集和整理数据可以为后续的数据分析和处理打下坚实的基础。数据采集其实有很多种方式,比如:
(1)数据库查询:数据库是一种结构化存储数据的方式,可以通过查询来获取所需的数据。
(2)网络爬虫:网络爬虫是一种自动收集和解析网页信息的程序。
(3)API获取: API 是一种提供特定功能的-一组接口,可以被其他应用程序调用。
(4)日志文件:日志文件是一种记录程序运行过程中各种信息的文件。
(5)传感器数据:传感器是一种能够感知和测量物理量的设备。
(6)问卷调查: 问卷调查是一种通过向参与者发放问卷并收集其回答信息的方法。
(7)公开数据源:公开数据源是指由政府、组织或个人公开提供的数据集。