当前位置: 首页 > news >正文

人工智能爬虫导致维基共享资源带宽需求激增 50%

2025 年 4 月 1 日,维基媒体基金会在博文中表示,自 2024 年 1 月以来,维基共享资源下载多媒体的带宽消耗激增 50%,这一变化趋势主要由用于 AI 训练数据集的网络爬虫导致。以下是具体分析1:

  • 爬虫流量特征与数据存储模式的冲突:维基媒体基金会的数据存储模式是低使用频率内容仅存放在核心数据中心,而高频请求的数据则在更邻近的数据中心提供备份。人类读者倾向于关注特定主题,而爬虫机器人倾向于 “批量阅读” 大量页面并访问不太受欢迎的页面,这意味着它们有更多的流量发送到核心数据中心,带来了更高的流量成本。根据统计,机器人以 35% 的总体浏览量消耗了 65% 的核心数据中心流量资源。
  • 爬虫行为的无节制性:这些人工智能爬虫为了满足训练 AI 模型的数据需求,对数据的获取既贪婪又不加选择,会访问大量的页面资源,甚至还去访问了维基媒体基金会开发环境关键系统(如代码审查平台、错误跟踪器)的 URL,在一定时间内产生的请求量巨大,远远超过了正常人类用户的访问量,导致带宽需求急剧上升。

维基媒体基金会面临着较大的运营开支压力,其网站可靠性团队不得不花费大量时间和资源来阻止爬虫程序,以避免对普通用户造成干扰。

维基媒体基金会采取了以下针对爬虫行为的措施:

  • 技术限制手段
    • IP 限制:基金会可能会监控 IP 地址,对频繁发送请求的 IP 进行限制,阻止或限制来自这些 IP 的访问,从而减少爬虫的大规模访问。
    • User - Agent 检测:通过检测请求中的 User - Agent 字段来判断请求是否来自常见的爬虫程序。如果发现是爬虫的 User - Agent,就会对其进行拦截或限制,拒绝为其提供服务。
    • 验证码验证:在部分页面或操作中加入验证码,要求访问者进行人机验证,如拖动滑块、选中特定图片等,以防止自动化爬虫程序的访问。
    • 动态页面生成:使用 JavaScript 等技术在服务器端动态生成页面内容,使爬虫无法直接获取完整的页面数据,增加爬虫解析和获取信息的难度。
  • 规范与沟通措施
    • 明确使用规范:强调基金会的内容是免费提供的,但基础设施需要成本,呼吁建立负责任、可持续的基础设施使用规范,让开发者和数据复用者明确如何正确合法地获取和使用其内容。
    • 与科技公司合作:与相关科技公司合作来共同应对爬虫问题。例如,Cloudflare 推出了 AI Labyrinth,它使用人工智能生成的内容来减慢爬虫的速度,维基媒体基金会可能会借助类似的技术和工具来保护自身资源。
http://www.dtcms.com/a/111657.html

相关文章:

  • 计算机系统---GPU
  • 【小沐杂货铺】基于Three.JS绘制太阳系Solar System(GIS 、WebGL、vue、react)
  • centosububntu设置开机自启动
  • Upload-labs靶场通关
  • 06-31-自考数据结构(20331)- 查找技术-哈希表例题分析
  • 在CPU服务器上部署Ollama和Dify的过程记录
  • 批量图片文本识别重命名,批量ocr识别图片重命名,基于WPF和腾讯OCR云部署实,现批量对图片局部提取文字后重命名的操作详细步骤
  • PyTorch模型 train() 和 eval() 模式详解
  • Python 入门指南:从基础语法到应用场景
  • React-02初学hello_react(JSX,创建React根节点,引入对应React库,render渲染DOM)
  • MIT6.828 Lab3-3 Detect which pages have been accessed (hard)
  • MCP有哪些比较好的资源?
  • 数据一键导出为 Excel 文件
  • 每日一个小病毒(C++)EnumChildWindows+shellcode
  • 添加购物车功能
  • LeetCode热题100记录-【链表】
  • Linux内核物理内存组织结构
  • 【GPT入门】第33课 从应用场景出发,区分 TavilyAnswer 和 TavilySearchResults,代码实战
  • [每周一更]-(第138期):MySQL 子查询详解:原理、应用及优化方案
  • 爬虫工程师的社会现状
  • ISIS多区域配置
  • 基于CATIA参数化块体建模的自动化插件开发实践——NX建模之块命令的参考与移植
  • 4.3-2 jenkins
  • Cortex-M​ 中断的压栈与出栈操作
  • 【51单片机】2-3【I/O口】震动传感器控制LED灯
  • 【记录】kali制作绕过火绒检测的木马(仅通过MSF的方式)
  • shared_ptr和weak_ptr原理
  • TortoiseGit多账号切换配置
  • Ubuntu服务器 无法正常启动redis
  • cmake(12):在 CMake 的 CMakeLists.txt 中也可以进行流程控制,也就是说可以像写 shell 脚本那样进行条件判断和循环。