视觉大模型与多模态理解
企业内部的AI工具可以用qwen3-8B,比DeepSeek-R1蒸馏版本幻觉小
提取图片中的文字如何能够更准确?
可以用 paddle-ocr 目前业内最好的图片文字提取工具 github上可以下载
可以试试百度的这个工具 https://aistudio.baidu.com
Q:各种智能体的架构都有什么
A:提示词工程 Function Call MCP RAG text2sql memory
选择合适的使用就行
VLM在行业中的应用
图像视觉理解:
qwen-vl 适用于通用的图片的文字识别和理解 泛化能力强
ocr 仅适用于图片文字识别 仅识别 无理解能力
qwen-vl 可能遇到的盲区:
以前训练的样本不均衡,如果给它一些小众的情况,如车辆逆行,它可能识别不出来
qwen-vl是开源模型,可以在modelscope上下载
较小的 qwen-vl-7B 所有文件大小约17G,需要一张4090显卡才能跑起来
Q:新发布的车型qwen-vl不会怎么办?
A:微调(微调一般只能对本地模型做 因为本地的模型可以保存下来)
https://github.com/QwenLM/Qwen2.5-VL
https://github.com/QwenLM/Qwen2.5-VL/tree/main/qwen-vl-finetune
A100, H100 => 适合做训练(因为训练会产生大量通信数据 这两种可处理大量数据)
GTX4090 =>适合推理(因为比较便宜)
个人练习先用 4090,可以在 autoDL(2.5.1)上租用一个
视频内容理解
推荐用 internvideo 目前业内最好的视频理解工具 现在版本是 2.5_Chat_8B
现在还没有线上的版本,需要自己部署才能使用,需要 gup
internvideo是用于视频理解的,视频生成可以用Qwen万相
Case 汽车剐蹭视频理解
Q:公司私有化部署模型,python和ollma哪个好?
A:1)模型会及时更新到modelscope,可以下载最新的模型
2)性能要求如果比较高(比如要求多人同时访问的),可以用vllm进行部署
Q:qianwen vl适用于分析已有APP界面截图,并进行UI风格设计和美化任务吗?
对APP界面进行理解是可以的
要对UI风格进行设计和美化 => Claude
Q: 老师刚才说intern-viedo有
识别400个场景的,怎么知道它能识别哪400个场景?要新增一个场景需要进一步训练微调吗?新场景至少需要多少个标注的样本?
Kinetics(K400)
https://github.com/cvdfoundation/kinetics-dataset
MinerU
MinerU 专注于高效解析和提取复杂的 PDF 文档、网页和电子书,并将其转换为易于分析的 Markdown 或 JSON 格式。由 上海人工智能实验室OpenDataLab 团队 开发。
主要功能包括:
• PDF 转 Markdown
支持多模态 PDF(含图片、表格、公式等)的结构化转换。 自动去除页眉、页脚、脚注等干扰信息,保留标题、段落、列表等结构。 公式识别并转换为 LaTeX 格式,表格转换为 HTML 或 Markdown。
• 网页内容提取:从网页中剔除广告等干扰信息,精准提取正文、评 论、视频文字等内容。
• 电子书转换:支持epub、mobi、docx、pptx、chm、azw等格式批量转Markdown。
• 多语言OCR:自动检测扫描版PDF和乱码,支持84种语言的OCR识别
qwen-vl是大模型,而minerU是小模型(融合了其它几个小模型而成)
MinerU核心技术
• 布局检测:基于LayoutLMv3微调,识别文本、表格、图片等区域。
• 公式识别:使用YOLOv8检测公式,UniMERNet模型转换LaTeX。
• OCR 增强:采用 PaddleOCR 提高文本识别准确率。
MinerU应用场景
• 大模型训练:为书生·浦语等模型提供高质量语料。
• 学术研究:提取论文、教材中的关键信息。
• 法律与金融:解析合同、研报等结构化数据。
MinerU使用
• 在线使用 https://mineru.net/OpenSourceTools/Extractor • 客户端
https://mineru.net/client
• API
https://mineru.net/apiManage
• 本地化部署
MinerU使用(私有化部署)
Step1,安装magic-pdf
pip install -U “magic-pdf[full]”
Step2,下载依赖的models
python download_models.py 使用modelscope快速下载各种models
Step3,推理pdf
magic-pdf -p 三国演义.pdf -o ./output
Q: minerU 一般什么情况下使用呢?
1)解析PDF的时候
2)网页抓取
AI搜索引擎,需要对网页内容进行抓取,可以用mineru进行解析
mineru本地部署需要什么样的环境支持?笔记本电脑能本地部署mineru吗?
笔记本电脑可以部署mineru