LLM多模态模型应用探索调研
Qwen3-VL
https://github.com/QwenLM/Qwen-VL
阿里研发的大规模视觉语言模型,以图像、文本、检测框作为输入,并以文本和检测框作为输出。
InternVL(InternVL 3.0)
https://github.com/OpenGVLab/InternVL
InternVL,书生·万象多模态大模型,一个性能强大的开源多模态大模型,MIT许可。
InternVL包括从适合边缘设备的1B模型到更为强大的78B模型。
在很多领域取测试,比如MMMU、MathVista、ChatQA、DocVQA、InfographicVQA、MMBench等测试中InternVL取得优秀表现。
Sana
Sana AI绘画大模型
https://github.com/NVlabs/Sana
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers
https://arxiv.org/abs/2410.10629
reference
---
Qwen3-VL
https://qwen3.org/vl/
Qwen3-VL
https://github.com/QwenLM/Qwen-VL
InternVL(InternVL 3.0)
https://github.com/OpenGVLab/InternVL
书生·万象多模态大模型(InternVL)系列
https://zhuanlan.zhihu.com/p/703940563
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers
https://arxiv.org/abs/2410.10629
Awesome Chinese LLM(包含医学、法律等领域的LLM)
https://github.com/HqWu-HITCS/Awesome-Chinese-LLM.git
【多模态理解与生成统一模型】LLM+image token生成范式原理与代码解析
https://zhuanlan.zhihu.com/p/8305891572
Sana - 英伟达等推出的开源图像生成模型,支持生成4096×4096图像
https://www.aihub.cn/ai-model/sana/
Sana
https://github.com/NVlabs/Sana
CVPR2024|底层视觉(超分辨率,增强,恢复,去雨,去雾等)相关论文汇总(附论文链接/代码/解析)[持续更新]
https://zhuanlan.zhihu.com/p/684196283