Spring AI(三)多模态支持(豆包)
多模态大型语言模型(LLM)的特性使模型能够结合图像、音频或视频等其他模态来处理和生成文本。
所以首先选择的模型就必须支持多模态,这里用的是,豆包的模型。DeepSeek目前好像不支持。
doubao-seed-1-6-vision-250815
其实在现在的版本来说,还是比较简单的。
/*** 多模态支持* @param msg* @param response* @return*/@GetMapping("/multimodality")public Flux<String> multimodalityChat(String msg, HttpServletResponse response){response.setCharacterEncoding("UTF-8");return chatClient.prompt().user(u -> u.text(msg).media(MimeTypeUtils.IMAGE_JPEG, new FileSystemResource("C:"+ File.separator+"2c730c4b34be2d3f341caf1f6d4638d2.jpeg")).media(MimeTypeUtils.IMAGE_JPEG, new FileSystemResource("C:"+ File.separator+"20250708142152-4476a281-7c84-477f-ac01-5fbeb945dfb0.jpg"))).stream().content();}
发起请求
结果显示
整体来说,只要模型支持的话,还是比较简单的。