当前位置: 首页 > news >正文

视觉大模型与多模态理解

企业内部的AI工具可以用qwen3-8B,比DeepSeek-R1蒸馏版本幻觉小

提取图片中的文字如何能够更准确?
可以用 paddle-ocr 目前业内最好的图片文字提取工具 github上可以下载
可以试试百度的这个工具 https://aistudio.baidu.com

Q:各种智能体的架构都有什么
A:提示词工程 Function Call MCP RAG text2sql memory
选择合适的使用就行

VLM在行业中的应用

图像视觉理解:
qwen-vl 适用于通用的图片的文字识别和理解 泛化能力强
ocr 仅适用于图片文字识别 仅识别 无理解能力

qwen-vl 可能遇到的盲区:
以前训练的样本不均衡,如果给它一些小众的情况,如车辆逆行,它可能识别不出来

qwen-vl是开源模型,可以在modelscope上下载
较小的 qwen-vl-7B 所有文件大小约17G,需要一张4090显卡才能跑起来

Q:新发布的车型qwen-vl不会怎么办?
A:微调(微调一般只能对本地模型做 因为本地的模型可以保存下来)

https://github.com/QwenLM/Qwen2.5-VL
https://github.com/QwenLM/Qwen2.5-VL/tree/main/qwen-vl-finetune

A100, H100 => 适合做训练(因为训练会产生大量通信数据 这两种可处理大量数据)
GTX4090 =>适合推理(因为比较便宜)
个人练习先用 4090,可以在 autoDL(2.5.1)上租用一个

视频内容理解

推荐用 internvideo 目前业内最好的视频理解工具 现在版本是 2.5_Chat_8B
现在还没有线上的版本,需要自己部署才能使用,需要 gup

internvideo是用于视频理解的,视频生成可以用Qwen万相

Case 汽车剐蹭视频理解

Q:公司私有化部署模型,python和ollma哪个好?
A:1)模型会及时更新到modelscope,可以下载最新的模型
2)性能要求如果比较高(比如要求多人同时访问的),可以用vllm进行部署

Q:qianwen vl适用于分析已有APP界面截图,并进行UI风格设计和美化任务吗?
对APP界面进行理解是可以的
要对UI风格进行设计和美化 => Claude

Q: 老师刚才说intern-viedo有
识别400个场景的,怎么知道它能识别哪400个场景?要新增一个场景需要进一步训练微调吗?新场景至少需要多少个标注的样本?
Kinetics(K400)
https://github.com/cvdfoundation/kinetics-dataset

MinerU

MinerU 专注于高效解析和提取复杂的 PDF 文档、网页和电子书,并将其转换为易于分析的 Markdown 或 JSON 格式。由 上海人工智能实验室OpenDataLab 团队 开发。

主要功能包括:
• PDF 转 Markdown
支持多模态 PDF(含图片、表格、公式等)的结构化转换。 自动去除页眉、页脚、脚注等干扰信息,保留标题、段落、列表等结构。 公式识别并转换为 LaTeX 格式,表格转换为 HTML 或 Markdown。
• 网页内容提取:从网页中剔除广告等干扰信息,精准提取正文、评 论、视频文字等内容。
• 电子书转换:支持epub、mobi、docx、pptx、chm、azw等格式批量转Markdown。
• 多语言OCR:自动检测扫描版PDF和乱码,支持84种语言的OCR识别

qwen-vl是大模型,而minerU是小模型(融合了其它几个小模型而成)

MinerU核心技术
• 布局检测:基于LayoutLMv3微调,识别文本、表格、图片等区域。
• 公式识别:使用YOLOv8检测公式,UniMERNet模型转换LaTeX。
• OCR 增强:采用 PaddleOCR 提高文本识别准确率。

MinerU应用场景
• 大模型训练:为书生·浦语等模型提供高质量语料。
• 学术研究:提取论文、教材中的关键信息。
• 法律与金融:解析合同、研报等结构化数据。

MinerU使用
• 在线使用 https://mineru.net/OpenSourceTools/Extractor • 客户端
https://mineru.net/client
• API
https://mineru.net/apiManage
• 本地化部署

MinerU使用(私有化部署)
Step1,安装magic-pdf
pip install -U “magic-pdf[full]”

Step2,下载依赖的models
python download_models.py 使用modelscope快速下载各种models

Step3,推理pdf
magic-pdf -p 三国演义.pdf -o ./output

Q: minerU 一般什么情况下使用呢?
1)解析PDF的时候
2)网页抓取
AI搜索引擎,需要对网页内容进行抓取,可以用mineru进行解析

mineru本地部署需要什么样的环境支持?笔记本电脑能本地部署mineru吗?
笔记本电脑可以部署mineru

http://www.dtcms.com/a/359662.html

相关文章:

  • MySQL直接启动命令mysqld详解:从参数说明到故障排查
  • 容器seccomp配置文件在云服务器安全策略中的实施规范
  • 基于单片机老人防丢失防摔倒系统/老人健康状态检测系统
  • 神州数码VRRP 原理与配置篇
  • 【lua】二进制数据打包和解析
  • 使用 Python 自动化检查矢量面数据的拓扑错误(含导出/删除选项)
  • 【C++ 】STL详解(六)—手撸一个属于你的 list!
  • Lua基础知识精炼
  • vscode+EIDE+Clangd环境导入keil C51以及MDK工程
  • PortSwigger靶场之Stored XSS into HTML context with nothing encoded通关秘籍
  • AG32 Nano开发板的烧录与调试工具(二)
  • LabVIEW 瀑布图与游标操作
  • Python人工智能机器学习汇总
  • MySQL 常用语法
  • CTFshow系列——命令执行web69-72
  • 贝叶斯分类(Bayes Classify)
  • 【嵌入式DIY实例】-空中鼠标
  • Ubuntu安装NVIDIA显卡驱动
  • C#基础(③CMD进程)
  • 【C2000】C2000的国产替代现状与技术关键路径
  • unity3d 中 R3 实际使用 安装方法
  • 吴恩达机器学习作业十 PCA主成分分析
  • 【量化回测】backtracker整体架构和使用示例
  • arm容器启动spring-boot端口报错
  • linux 内核 - 常见的文件系统介绍
  • 【K8s】整体认识K8s之存储--volume
  • shell脚本(略)
  • 【Flink】并行度的设置
  • nrf52840 flash 分区
  • 3【鸿蒙/OpenHarmony/NDK】如何在鸿蒙应用中使用NDK?