智谱开源了最新多模态模型,GLM-4.5V
模型已经在多平台开源了,可以任选一个下载。
Github:https://github.com/zai-org/GLM-V
Hugging Face:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
国内用户直接访问网址:https://chat.z.ai/
我们来测试下识图辨地,结果让人眼前一亮,很准确
我们发送一个山坡给它,这次不太准确,不过也情有可原,毕竟标识不明显
然后我们测试一个“小猫摸球问题”:问题是到底哪个猫摸到了毛线球。
GLM-4.5V也找到正确的答案,还给了正经的操作方法。
在视觉推理能力上,GLM-4.5v确实有点东西,而且速度快的离谱。
接下来让她看个游标卡尺
来看结果
读取的很正确,在视觉推理能力上,GLM-4.5v确实有点东西,而且速度很快。
接下来,我们测试个识别地理位置的:横店明清宫苑的图片,想看看它能不能正确的分辨出来。
看下GLM-4.5V的回答:很正确,指出了这里是横店的明清宫苑。
我很诧异,又接着问它,为什么不是故宫是横店呢?想看看它是如何分辨的
这回它给出了详细的解答,分了三个点,讲的相当有理有据。
除此之外,还有“视觉定位”、“网页复刻”、“视频理解”模块,也非常强
测试下网站复刻
我发送智谱的首页给它,结果出来的几乎一模一样,相当哇塞
最后,总结一下。
曾经的国产之光,智谱好像回来了。
连续两个开源GLM-4.5和GLM-4.5V,效果都非常的强。