当前位置: 首页 > news >正文

01数据准备 抓取图片 通过爬虫方式获取bing的关键词搜索图片

为了获取训练所需的图片,我们最常用的手段就是自己去写一个爬虫去获取相关图片。本文将重点围绕如何采用爬虫的方式获取训练所需的图片素材进行讲解,为了大家能够够直观的掌握相关技术,参考本文的相关过程和代码获取自己的数据图片素材,笔者将详细介绍实现过程。
1、确定图片获取来源
首先,我们要确定从什么地方获取图片。对于本文所述的电动自行车头盔佩戴场景而言,我们很难找到一个网站有大量的素材,最为常用的手段就是在百度等搜索引擎上去搜索,因此我们初步确定的思路是确定关键词,比如“电动车 头盔”,并使用这个关键词在搜索引擎上做图片检索,并将检索得到的图片结果进行爬取。
在确定的基本思路后,我们要做的就是确定从那个搜索引擎进行抓取。而这一点我们可以尝试比较一下百度和Bing这两个主流搜索引擎,确定一下那个自己去尝试构造爬虫脚本请求所需的url更简单便利。
(1)百度图片搜索
我们在百度图片页面尝试搜索“电动车 头盔”,我们可以看到如下结果页面。
在这里插入图片描述

我们虽然得到了很多搜索出来的图片,但这里我们虽然需要评估一下搜索引擎搜索出来的结果是否符合预期,但更重要的是关注他上面的链接地址,因为

相关文章:

  • 优先队列(典型算法思想)—— OJ例题算法解析思路
  • 撕碎QT面具(6):调节窗口大小后,控件被挤得重叠的解决方法
  • SLT-加载表添加字段重新刷数
  • YOLOv10改进系列 ---- Conv篇 ---- 2024利用 Haar 小波的下采样HWD替换传统下采样
  • 传入一个list map,寻找最大的key和对应的vlaue
  • 快速定位并优化CPU 与 JVM 内存性能瓶颈
  • 黑客入侵动图特效实现
  • linux下pip下载项目失败
  • Vue.js 入门指南:从基础到实战
  • 解析跨域:原理、解决方案与实践指南
  • 算法日记20:SC72最小生成树(prim朴素算法)
  • C++ 多态详解
  • New-api大模型代理聚合创建渠道使用多个大模型
  • C++(23):利用this参数更方便的实现CRTP
  • 检索增强生成(RAG)技术应用方案设计
  • 【AIGC】冷启动数据与多阶段训练在 DeepSeek 中的作用
  • 网页版的俄罗斯方块
  • 01-零基础入门嵌入式系统
  • Comsol 双层带穿孔多孔材料背衬的穿孔板的吸声:亥姆霍兹共振腔的能量耗散
  • C++类与对象深度解析(一):从引用、内联函数到构造析构的编程实践
  • 深圳中院回应“退休夫妻月入1.2万负债1.2亿”:其自述因经营不善负债
  • 习近平举行仪式欢迎巴西总统卢拉访华
  • 男子退机票被收90%的手续费,律师:虽然合规,但显失公平
  • 宁德时代港股募资预计最高至50亿美元:90%将投向匈牙利项目
  • 上海下周最高气温在30℃附近徘徊,夏天越来越近
  • 国内大模型人才大战打响!大厂各出奇招