当前位置: 首页 > news >正文

维基艺术图片: 数据标注 (2)

请添加图片描述

完整的项目地址在这里: https://github.com/buxuele/wiki_art

一、 目标

在第一阶段,我们通过爬虫获取了数千张未分类的图片。本阶段的核心目标是,对这些图片进行人工筛选和归类,将它们物理地分离到两个独立的文件夹中:good(代表喜欢)和 bad(代表不喜欢)。

这两个文件夹将作为第三阶段模型训练的直接数据源,供PyTorch的ImageFolder类使用,从而实现自动化的标签分配(good -> 1, bad -> 0)。
请添加图片描述

二、 使用的工具

标注工作主要通过我自研的图片浏览应用 pinterest_image_app 完成。

  • GitHub地址:https://github.com/buxuele/pinterest_image_app

该工具支持瀑布流式的高效图片浏览,并提供了便捷的文件操作接口,非常适合本次任务。

三、 操作流程

我的实际标注流程如下:

  1. 准备待标数据
    我从爬虫下载的原始图片池中,一次性选取一批(例如200-300张)图片,并将它们全部放入pinterest_image_app的应用输入目录(D:\fullStack\pinterest_image_app\python_api\user_uploads)。

  2. 执行标注操作

    • 筛选“喜欢”的图片:我在APP中浏览所有图片。当遇到符合我审美的图片时,我通过鼠标右键菜单的“保存”功能,将该图片直接保存到我的电脑桌面上。
    • 处理“不喜欢”的图片:所有图片浏览完毕后,那些依然保留在APP输入目录中的图片,即是我“不喜欢”的样本。
  3. 整理最终的数据集文件夹

    • 我手动在我的项目工作区(例如 3_build_model/data/)内,创建了两个空的文件夹:goodbad
    • 我将桌面上所有通过右键保存下来的“喜欢”的图片,全部移动good 文件夹中。
    • 我将APP输入目录中所有剩下的“不喜欢”的图片,全部移动bad 文件夹中。

四、 阶段成果

在完成上述流程后,我得到了两个结构清晰、内容明确的物理文件夹:goodbad

这个结果,摒弃了所有复杂的中间JSON文件和匹配脚本,直接生成了模型训练阶段所需的、完美符合ImageFolder格式的数据源。这为我们下一阶段的工作,提供了一个最简单、最直接、最可靠的起点。

http://www.dtcms.com/a/276985.html

相关文章:

  • C语言基础教程(002):变量介绍
  • 一文读懂现代卷积神经网络—使用块的网络(VGG)
  • 基于Prompt结构的语校解析:3H日本语学校信息建模实录(4/500)
  • 08.如何正确关闭文件
  • 数智管理学(三十三)
  • 归并排序递归法和非递归法的简单简单介绍
  • Gin框架统一响应与中间件机制学习笔记
  • DH(Denavit–Hartenberg)矩阵
  • KL散度:信息差异的量化标尺 | 从概率分布对齐到模型优化的核心度量
  • 使用QtTest
  • 反激变换器设计全流程(一)——电路拓扑及工作流程
  • Chrome v109.0.5414.168 绿色便携版 Windows 7/2012R2 最终版 下载
  • 开发语言的优劣势对比及主要应用领域分析
  • GROW领导力模型
  • Unity物理系统由浅入深第四节:物理约束求解与稳定性
  • 【算法分析与设计】研究生第一次算法作业latex源码+pdf
  • docker容器高级管理-dockerfile创建镜像
  • 飞算 JavaAI 智能编程助手:颠覆编程旧模式,重构开发生态
  • Java小白-线程 vs 虚拟线程,Java并发的新旧对决
  • LeetCode--44.通配符匹配
  • Java4种设计模式详解(单例模式、工厂模式、适配器模式、代理模式)
  • Linux的 iproute2 配置:以太网(Ethernet)、绑定(Bond)、虚拟局域网(VLAN)、网桥(Bridge)笔记250713
  • 文心一言大模型4.5系列开源测评
  • 【Leetcode】2410. 运动员和训练师的最大匹配数
  • 预处理器完整功能介绍和示例演示(LESS/SCSS)
  • 笔记-极客-DDD实战-基于DDD的微服务拆分与设计
  • MongoDB数据基本介绍
  • 决策树的相关理论学习
  • [论文阅读] 软件工程 | 首个德语软件工程情感分析黄金标准数据集:构建与价值解析
  • Java设计模式之行为型模式(命令模式)介绍与说明