spring-ai-alibaba 多模态之音频
目前主干分支中新增了对音频文件的支持,原先仅支持视频和图片(可以参考spring-ai-alibaba 1.0.0.2 学习(十六)——多模态-CSDN博客)
使用时需要注意三点:
Media media = new Media(MediaType.parseMediaType("audio/mpeg"),URI.create("https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"));;UserMessage message =UserMessage.builder().text(prompt).media(media).metadata(new HashMap<>()).build();message.getMetadata().put(DashScopeApiConstants.MESSAGE_FORMAT, MessageFormat.AUDIO);ChatResponse response = dashScopeChatClient.prompt(new Prompt(message,DashScopeChatOptions.builder().withModel("qwen-audio-turbo-latest").withMultiModel(true).build())).call().chatResponse();
1.需要在UserMessage的metadata中设置消息格式为AUDIO
2.需要使用支持音频的多模态模型,如qwen-audio-turbo-latest
3.需要开启多模态开关,withMultiModel(true)
ps:目前还未正式发布,使用需自行打包或使用1.0.0.3-SNAPSHOT(SNAPSHOT版本需修改仓库)