12. 深入Spring AI:多模态
1、什么是多模态?
通常在人工智能领域中,一种“类型数据”被简称为一种模态,如文本,图片,视频,音频等。多模态指的是同时处理、理解或生成两种及以上不同类型数据 的算法或系统。
ChatGPT最开始的时候支持的单模态,仅限于文本聊天和最基本的文字对话,通常为了描述一个图片需要好几百字。而多模态的支持,我们只需要一张截图或一段公式就可以让大模型自己解析出来图片的内容。
2、Spring AI多模态的支持
Spring AI Message API 提供了支持多模态 LLM 所需的所有抽象。

Spring AI通过用户消息UserMessage的media字段传入我们媒体文件。UserMessage 的 content 字段主要用于文本输入,而可选的 media 字段允许添加一种或多种不同模态的额外内容,如图像、音频和视频。MimeType 指定模态类型。根据所使用的 LLM,Media 数据字段可以是原始媒体内容(作为 Resource 对象)或内容的 URI。
media字段目前仅适用于用户输入消息(例如UserMessage</
