当前位置：首页 > news >正文

视觉大模型与多模态理解

news 2025/9/1 6:31:23

企业内部的AI工具可以用qwen3-8B，比DeepSeek-R1蒸馏版本幻觉小

提取图片中的文字如何能够更准确？
可以用 paddle-ocr 目前业内最好的图片文字提取工具 github上可以下载
可以试试百度的这个工具 https://aistudio.baidu.com

Q：各种智能体的架构都有什么
A：提示词工程 Function Call MCP RAG text2sql memory
选择合适的使用就行

VLM在行业中的应用

图像视觉理解：
qwen-vl 适用于通用的图片的文字识别和理解泛化能力强
ocr 仅适用于图片文字识别仅识别无理解能力

qwen-vl 可能遇到的盲区：
以前训练的样本不均衡，如果给它一些小众的情况，如车辆逆行，它可能识别不出来

qwen-vl是开源模型，可以在modelscope上下载
较小的 qwen-vl-7B 所有文件大小约17G，需要一张4090显卡才能跑起来

Q:新发布的车型qwen-vl不会怎么办？
A:微调（微调一般只能对本地模型做因为本地的模型可以保存下来）

https://github.com/QwenLM/Qwen2.5-VL
https://github.com/QwenLM/Qwen2.5-VL/tree/main/qwen-vl-finetune

A100， H100 => 适合做训练（因为训练会产生大量通信数据这两种可处理大量数据）
GTX4090 =>适合推理（因为比较便宜）
个人练习先用 4090，可以在 autoDL（2.5.1）上租用一个

视频内容理解

推荐用 internvideo 目前业内最好的视频理解工具现在版本是 2.5_Chat_8B
现在还没有线上的版本，需要自己部署才能使用，需要 gup

internvideo是用于视频理解的，视频生成可以用Qwen万相

Case 汽车剐蹭视频理解

Q:公司私有化部署模型，python和ollma哪个好？
A：1）模型会及时更新到modelscope，可以下载最新的模型
2）性能要求如果比较高（比如要求多人同时访问的），可以用vllm进行部署

Q：qianwen vl适用于分析已有APP界面截图，并进行UI风格设计和美化任务吗？
对APP界面进行理解是可以的
要对UI风格进行设计和美化 => Claude

Q: 老师刚才说intern-viedo有
识别400个场景的，怎么知道它能识别哪400个场景？要新增一个场景需要进一步训练微调吗？新场景至少需要多少个标注的样本？
Kinetics（K400)
https://github.com/cvdfoundation/kinetics-dataset

MinerU

MinerU 专注于高效解析和提取复杂的 PDF 文档、网页和电子书，并将其转换为易于分析的 Markdown 或 JSON 格式。由上海人工智能实验室OpenDataLab 团队开发。

主要功能包括:
• PDF 转 Markdown
支持多模态 PDF(含图片、表格、公式等)的结构化转换。自动去除页眉、页脚、脚注等干扰信息，保留标题、段落、列表等结构。公式识别并转换为 LaTeX 格式，表格转换为 HTML 或 Markdown。
• 网页内容提取:从网页中剔除广告等干扰信息，精准提取正文、评论、视频文字等内容。
• 电子书转换:支持epub、mobi、docx、pptx、chm、azw等格式批量转Markdown。
• 多语言OCR:自动检测扫描版PDF和乱码，支持84种语言的OCR识别

qwen-vl是大模型，而minerU是小模型（融合了其它几个小模型而成）

MinerU核心技术
• 布局检测:基于LayoutLMv3微调，识别文本、表格、图片等区域。
• 公式识别:使用YOLOv8检测公式，UniMERNet模型转换LaTeX。
• OCR 增强:采用 PaddleOCR 提高文本识别准确率。

MinerU应用场景
• 大模型训练:为书生·浦语等模型提供高质量语料。
• 学术研究:提取论文、教材中的关键信息。
• 法律与金融:解析合同、研报等结构化数据。

MinerU使用
• 在线使用 https://mineru.net/OpenSourceTools/Extractor • 客户端
https://mineru.net/client
• API
https://mineru.net/apiManage
• 本地化部署

MinerU使用(私有化部署)
Step1，安装magic-pdf
pip install -U “magic-pdf[full]”

Step2，下载依赖的models
python download_models.py 使用modelscope快速下载各种models

Step3，推理pdf
magic-pdf -p 三国演义.pdf -o ./output

Q: minerU 一般什么情况下使用呢？
1）解析PDF的时候
2）网页抓取
AI搜索引擎，需要对网页内容进行抓取，可以用mineru进行解析

mineru本地部署需要什么样的环境支持？笔记本电脑能本地部署mineru吗？
笔记本电脑可以部署mineru

查看全文

http://www.dtcms.com/a/359662.html