当前位置: 首页 > news >正文

使用LLaMA-Factory微调Qwen2.5-VL-3B 的目标检测任务-数据集格式转换(voc 转 ShareGPT)

一、LLaMA-Factory + Qwen2.5-VL + ShareGPT 格式要求

ShareGPT 格式就是多轮对话的 list,每条数据如下:

[{"conversations": [{"from": "user", "value": "<image>\n请标注图片中的所有目标及其类别和位置。"},{"from": "assistant", "value": "[{\"category\": \"person\", \"bbox\": [50, 100, 200, 300]}]"}],"image": "相对路径/xxx.jpg"},...
]

注意:

  • 字段是 "from" 而不是 "role"

  • 图片路径通常为相对路径,实际训练时配合 --image_folder 参数;

  • 你可以有任意多轮(这里只做单轮QA,适合目标检测)。

http://www.dtcms.com/a/270746.html

相关文章:

  • Mac mini 高性价比扩容 + Crossover 游戏实测 全流程手册
  • SpringCloud系列 - Seata 分布式事务(六)
  • AJAX 学习
  • 如何将华为手机中的照片传输到电脑
  • Django核心知识点详解:JSON、AJAX、Cookie、Session与用户认证
  • 【Kafka】登录日志处理的三次阶梯式优化实践:从同步写入到Kafka多分区批处理
  • 2311. 小于等于 K 的最长二进制子序列— day98
  • 数字大脑的培育法则:深度解读监督学习神经网络
  • (C++)任务管理系统(正式版)(迭代器)(list列表基础教程)(STL基础知识)
  • 【Gin】HTTP 请求调试器
  • C/C++ 高频八股文面试题1000题(二)
  • Java中Map、List 和 Set 之间的常见转换方法总结
  • vcpkg交叉编译qt等过程记录(未完成)
  • HarmonyOS应用开发者高级试题2025年7月部分单选题(带答案)
  • 学习日记-spring-day44-7.9
  • C++随机打乱函数:简化源码与原理深度剖析
  • leetcode11.盛最多水的容器
  • Webpack、Vite配置技巧与CI/CD流程搭建全解析
  • 【RTSP从零实践】9、多播传输AAC格式的RTP包(附带源码)
  • mac m1安装大模型工具vllm
  • kotlin学习,val使用get()的问题
  • mysql 安装实战
  • Claude Code 开发使用技巧
  • User手机上如何抓取界面的布局uiautomatorviewer
  • Linux的`if test`和`if [ ]中括号`的取反语法比较 笔记250709
  • Unity Demo-3DFarm详解-其二
  • 以太坊智能合约核心技术解析与应用实践
  • LLaMA-Omni 深度解析:打开通往无缝人机语音交互的大门
  • HCIP 认证可以做什么?如何选择合适的职业路径?
  • C++11 future、promise实现原理