当前位置：首页 > news >正文

本地部署 Spring AI 完全指南：从环境搭建到实战落地

news 2025/11/2 11:05:08

本地部署 Spring AI 完全指南：从环境搭建到实战落地

引言：Spring AI 为何值得本地部署？

在大模型时代，开发者对 AI 能力的集成需求日益迫切，但 “云端依赖” 和 “数据隐私” 始终是两大痛点。Spring AI 作为 Spring 生态下的官方 AI 框架，不仅延续了 “约定优于配置” 的核心思想，更提供了对主流大模型的统一抽象，让 Java 开发者能以极低成本集成 AI 能力。

而本地部署 Spring AI，正是解决上述痛点的关键方案 —— 它能避免敏感数据传输至第三方云端，降低网络延迟带来的响应损耗，同时让开发者完全掌控模型运行环境，适配私有化部署、内网场景等特殊需求。本文将从环境准备到实战案例，手把手教你完成 Spring AI 的本地部署，覆盖开源模型、闭源 API、向量数据库等核心场景，最终实现一个可落地的本地 AI 应用。

一、本地部署前的基础准备：环境与工具

在开始部署前，需先完成基础环境配置，确保 Java、Spring 生态工具与模型运行依赖兼容。本节将明确各组件的版本要求与安装步骤，避免后续因环境问题导致部署失败。

1.1 核心环境依赖清单

Spring AI 的本地部署依赖 Java 生态与模型运行环境，需严格匹配版本兼容性。以下是经过验证的稳定版本组合：

组件	推荐版本	说明
JDK	17+	Spring AI 基于 Java 17 开发，低版本不兼容
Spring Boot	3.2.x	需与 Spring AI 版本对应（见下文）
Spring AI	0.8.1（稳定版）	最新版需查看官方兼容性文档
构建工具	Maven 3.8+ / Gradle 8.0+	推荐 Maven，依赖管理更直观
模型运行环境	Ollama 0.1.30+ / TensorFlow 2.15+	开源模型本地运行核心
代码编辑器	IntelliJ IDEA 2023+	支持 Spring Boot 自动配置，调试更高效

1.2 环境安装步骤（Windows/macOS 通用）

步骤 1：安装 JDK 17

从Oracle 官网或Adoptium下载 JDK 17（推荐 Adoptium 的 OpenJDK，无需注册）；
配置环境变量：
- Windows：右键 “此电脑”→“属性”→“高级系统设置”→“环境变量”，新增JAVA_HOME指向 JDK 安装目录，在Path中添加%JAVA_HOME%\bin；
- macOS：打开终端，执行echo 'export JAVA_HOME=$(/usr/libexec/java_home -v 17)' >> ~/.zshrc（若用 bash 则改.bash_profile），执行source ~/.zshrc生效；
验证：终端输入java -version，输出 “openjdk version "17.x.x"” 即成功。

步骤 2：安装 Maven 3.8+

从Maven 官网下载 Binary zip 包；
配置环境变量：
- Windows：新增MAVEN_HOME指向解压目录，Path添加%MAVEN_HOME%\bin；
- macOS：执行echo 'export MAVEN_HOME=/你的解压路径/apache-maven-3.8.8' >> ~/.zshrc，再执行source ~/.zshrc；
验证：终端输入mvn -v，输出 Maven 版本与 Java 路径即成功。

步骤 3：安装模型运行环境（以 Ollama 为例）

Ollama 是轻量级开源模型运行工具，支持 Llama 2、Mistral、ChatGLM 等主流模型，本地部署首选：

从Ollama 官网下载对应系统客户端（Windows/macOS/Linux）；
安装后启动 Ollama，终端执行ollama pull llama2:7b（拉取 7B 参数的 Llama 2 模型，约 4GB，需耐心等待）；
验证：执行ollama run llama2:7b，输入 “Hello” 若能收到回复，说明模型运行正常。

二、Spring AI 核心概念：理解部署的 “底层逻辑”

在动手部署前，需先掌握 Spring AI 的核心抽象 —— 这些设计是 “统一适配所有模型” 的关键，也是后续解决问题的基础。本节将用通俗的语言解释核心组件，避免陷入源码细节，聚焦 “部署相关” 的知识点。

2.1 三大核心抽象：适配所有模型的 “通用接口”

Spring AI 通过 3 个核心接口，屏蔽了不同模型（如 OpenAI、Llama 2、ChatGLM）的调用差异，让开发者无需修改代码即可切换模型。

1. Prompt：“给模型的指令” 封装

Prompt 是开发者传递给模型的 “指令 + 上下文”，包含两个核心部分：

UserMessage：用户的核心需求（如 “写一篇 Java 教程”）；
SystemMessage：对模型的约束（如 “用 Markdown 格式，字数 500 字以内”）。

Spring AI 提供PromptTemplate工具，支持动态填充参数，例如：

java

// 定义Prompt模板，{topic}为动态参数
PromptTemplate promptTemplate = PromptTemplate.from("写一篇关于{topic}的技术短文，300字以内");
// 填充参数
Map<String, Object> params = new HashMap<>();
params.put("topic", "Spring AI本地部署");
// 生成最终Prompt
Prompt prompt = promptTemplate.create(params);

2. Model：“模型调用” 的统一入口

Model 是 Spring AI 调用模型的核心接口，分为两类：

ChatModel：用于对话模型（如 Llama 2、GPT-3.5），返回ChatResponse（包含多轮对话历史）；
EmbeddingModel：用于生成文本向量（如将 “猫” 转化为数组），主要用于向量数据库检索。

本地部署时，我们主要使用ChatModel，且无需关心模型是 “本地开源” 还是 “云端 API”—— 只需配置对应的实现类（如OllamaChatModel、OpenAiChatModel）。

3. OutputParser：“模型输出” 的格式化工具

模型返回的原始输出是字符串（如 Llama 2 返回的 Markdown 文本），OutputParser用于将其转化为结构化数据（如 Java 对象、List）。

例如，若模型返回 “姓名：张三，年龄：25”，可通过BeanOutputParser直接解析为User对象：

java

// 定义User类
class User {private String name;private Integer age;// getter/setter省略
}// 创建解析器
BeanOutputParser<User> parser = new BeanOutputParser<>(User.class);
// 向模型传递解析规则（通过SystemMessage）
String systemPrompt = "按以下格式返回JSON：{\"name\":\"\",\"age\":0}，不要多余内容";
Prompt prompt = new Prompt(List.of(new SystemMessage(systemPrompt),new UserMessage("描述一个叫张三的人，年龄25岁")
));
// 调用模型并解析
ChatResponse response = chatModel.call(prompt);
User user = parser.parse(response.getResult().getOutput().getContent());
// 输出：name=张三，age=25
System.out.println("name=" + user.getName() + "，age=" + user.getAge());

2.2 本地部署的两种场景：开源模型 vs 闭源 API

Spring AI 本地部署并非 “只能用开源模型”，而是包含两种核心场景，需根据需求选择：

场景	核心特点	适用场景	依赖工具
本地开源模型部署	模型运行在本地服务器，无网络依赖	数据敏感、内网环境、低延迟需求	Ollama/TensorFlow
本地项目调用闭源 API	项目部署在本地，通过 API 调用云端模型（如 OpenAI）	无需本地硬件资源，模型能力强	API 密钥、网络连接

本文将重点覆盖 “本地开源模型部署”（最常用、最能体现本地部署价值），同时简要介绍 “本地项目调用闭源 API” 的配置方式。

三、实战 1：Spring AI 基础项目搭建（调用本地 Ollama 模型）

本节将从 0 开始创建 Spring Boot 项目，集成 Spring AI 并调用本地 Ollama 运行的 Llama 2 模型，实现 “发送指令→接收模型回复” 的基础功能。全程代码可复制，确保新手也能快速跑通。

3.1 项目创建（两种方式）

方式 1：通过 Spring Initializr（推荐）

打开Spring Initializr；
配置项目信息：
- Project：Maven Project；
- Language：Java；
- Spring Boot：3.2.5（稳定版）；
- Group/Artifact：自定义（如 com.example/spring-ai-demo）；
- Dependencies：搜索并添加 “Spring Web”（用于后续创建接口）；
点击 “Generate” 下载项目压缩包，解压后用 IDEA 打开。

方式 2：手动创建 Maven 项目

若 Initializr 无法访问，可手动创建pom.xml，复制以下内容：

xml

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>3.2.5</version><relativePath/></parent><groupId>com.example</groupId><artifactId>spring-ai-demo</artifactId><version>0.0.1-SNAPSHOT</version><name>spring-ai-demo</name><dependencies><!-- Spring Web：用于创建HTTP接口 --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><!-- Spring AI核心依赖 --><dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-core</artifactId><version>0.8.1</version></dependency><!-- Spring AI Ollama集成：调用本地Ollama模型 --><dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-ollama</artifactId><version>0.8.1</version></dependency><!-- 测试依赖 --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId><scope>test</scope></dependency></dependencies>
</project>

3.2 配置本地 Ollama 模型

打开src/main/resources/application.properties（或application.yml），添加 Ollama 配置：

properties

# Ollama服务地址（默认本地地址，无需修改）
spring.ai.ollama.base-url=http://localhost:11434
# 调用的模型名称（需与Ollama拉取的模型一致，如llama2:7b）
spring.ai.ollama.chat.model=llama2:7b
# 模型温度（0-1，值越高回复越随机，0更稳定）
spring.ai.ollama.chat.temperature=0.7
# 最大生成字数
spring.ai.ollama.chat.max-tokens=2048

关键说明：

base-url：Ollama 默认端口是 11434，若修改过 Ollama 配置需同步调整；
model：必须与ollama pull的模型名一致（可通过ollama list查看本地模型）；
temperature：本地模型推荐设 0.5-0.7，平衡稳定性与灵活性。

3.3 编写基础调用代码

步骤 1：创建 AI 服务类（封装模型调用逻辑）

在com.example.springaidemo.service包下创建AIService类，注入ChatModel（Spring AI 会自动根据配置创建OllamaChatModel实例）：

java

package com.example.springaidemo.service;import org.springframework.ai.chat.ChatModel;
import org.springframework.ai.chat.ChatResponse;
import org.springframework.ai.chat.prompt.Prompt;
import org.springframework.ai.chat.prompt.PromptTemplate;
import org.springframework.stereotype.Service;import java.util.HashMap;
import java.util.Map;@Service
public class AIService {// 注入ChatModel（自动适配Ollama）private final ChatModel chatModel;// 构造函数注入public AIService(ChatModel chatModel) {this.chatModel = chatModel;}// 基础文本生成方法：接收主题，返回短文public String generateShortArticle(String topic) {// 1. 定义Prompt模板String promptTemplate = """请写一篇关于{topic}的技术短文，要求：1. 字数300字以内；2. 分2-3个小点；3. 语言通俗易懂，适合Java开发者。""";// 2. 填充动态参数Map<String, Object> params = new HashMap<>();params.put("topic", topic);Prompt prompt = PromptTemplate.from(promptTemplate).create(params);// 3. 调用模型并返回结果ChatResponse response = chatModel.call(prompt);return response.getResult().getOutput().getContent();}
}

步骤 2：创建 HTTP 接口（供外部调用）

在com.example.springaidemo.controller包下创建AIController类，提供 GET 接口：

java

package com.example.springaidemo.controller;import com.example.springaidemo.service.AIService;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;@RestController
public class AIController {private final AIService aiService;public AIController(AIService aiService) {this.aiService = aiService;}// 接口：/api/generate?topic=xxx@GetMapping("/api/generate")public String generateArticle(@RequestParam String topic) {// 调用服务类方法return aiService.generateShortArticle(topic);}
}

步骤 3：启动项目并测试

运行SpringAiDemoApplication类（主类）；
打开浏览器或 Postman，访问：http://localhost:8080/api/generate?topic=Spring AI本地部署；
等待 3-10 秒（本地模型响应较慢，取决于硬件），即可收到类似以下的回复：

plaintext

### 1. 环境准备是基础
本地部署Spring AI需先搭好环境：JDK 17+保证兼容，Ollama工具用来运行开源模型（如Llama 2），还要注意Spring Boot版本与Spring AI匹配（推荐3.2.x+0.8.1）。### 2. 配置简化调用流程
在application.properties中填Ollama地址（默认localhost:11434）和模型名，Spring AI会自动创建ChatModel实例，无需手动写调用逻辑，开发者只需注入即可用。

至此，基础的 Spring AI 本地部署已完成 —— 项目运行在本地，调用本地 Ollama 的 Llama 2 模型，全程无外部网络依赖（除模型下载阶段）。

四、实战 2：本地部署开源模型进阶（ChatGLM3 + 向量数据库）

上一节的基础案例仅实现了 “文本生成”，本节将进阶到 “本地化知识库” 场景 —— 结合 ChatGLM3（国产开源模型）与 Milvus（本地向量数据库），实现 “基于本地文档的问答”（如上传 Java 手册，让模型回答手册中的问题）。

4.1 场景需求与技术选型

需求描述

上传本地 PDF 文档（如《Spring Boot 官方手册》）；
模型能 “读懂” 文档内容，回答相关问题（如 “Spring Boot 如何配置数据源”）；
所有数据（文档、向量、模型）均运行在本地，不泄露至外部。

技术选型

模型：ChatGLM3-6B（国产开源，中文支持好，6B 参数适合本地部署）；
向量数据库：Milvus Lite（轻量级本地向量数据库，无需单独部署服务）；
文档解析：Spring AI 的PdfDocumentReader（解析 PDF 为文本）；
Embedding 模型：BgeSmallEnEmbeddingModel（轻量级文本向量生成模型）。

4.2 环境准备（新增组件）

步骤 1：下载 ChatGLM3-6B 模型

访问Hugging Face ChatGLM3 页面；
下载模型文件（需注册账号，推荐用 Git LFS：git lfs clone https://huggingface.co/THUDM/chatglm3-6b）；
将模型文件放入本地目录（如D:/models/chatglm3-6b）。

步骤 2：集成 Milvus Lite

Milvus Lite 无需单独部署，只需在pom.xml中添加依赖：

xml

<!-- Milvus Lite：本地向量数据库 -->
<dependency><groupId>io.milvus</groupId><artifactId>milvus-sdk-java</artifactId><version>2.4.3</version>
</dependency>
<!-- Spring AI文档解析：支持PDF/Word -->
<dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-document-reader</artifactId><version>0.8.1</version>
</dependency>
<!-- Embedding模型：生成文本向量 -->
<dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-huggingface-embeddings</artifactId><version>0.8.1</version>
</dependency>

4.3 核心功能实现（本地化知识库）

步骤 1：配置 ChatGLM3 与 Embedding 模型

修改application.properties，添加以下配置：

properties

# 1. ChatGLM3模型配置（本地文件）
spring.ai.huggingface.chat.model=THUDM/chatglm3-6b
spring.ai.huggingface.chat.model-path=D:/models/chatglm3-6b  # 本地模型路径
spring.ai.huggingface.chat.temperature=0.5# 2. Embedding模型配置（生成文本向量）
spring.ai.huggingface.embedding.model=BAAI/bge-small-en-v1.5
spring.ai.huggingface.embedding.model-path=D:/models/bge-small-en-v1.5  # 需提前下载

说明：Bge-small-en 模型需从Hugging Face下载，约 1GB，中文支持良好。

步骤 2：实现文档上传与向量存储

创建DocumentService类，负责解析 PDF 文档、生成向量并存储到 Milvus：

java

package com.example.springaidemo.service;import org.springframework.ai.document.Document;
import org.springframework.ai.document.DocumentReader;
import org.springframework.ai.document.reader.pdf.PdfDocumentReader;
import org.springframework.ai.embedding.EmbeddingModel;
import org.springframework.ai.embedding.EmbeddingResponse;
import org.springframework.stereotype.Service;
import io.milvus.client.MilvusClient;
import io.milvus.client.MilvusServiceClient;
import io.milvus.param.ConnectParam;
import io.milvus.param.collection.CreateCollectionParam;
import io.milvus.param.collection.FieldType;
import io.milvus.param.dml.InsertParam;
import io.milvus.response.InsertResponse;import java.io.File;
import java.util.ArrayList;
import java.util.List;@Service
public class DocumentService {// 向量维度（Bge-small-en模型生成的向量是384维）private static final int VECTOR_DIM = 384;// Milvus集合名（类似数据库表名）private static final String COLLECTION_NAME = "local_knowledge";private final EmbeddingModel embeddingModel;private final MilvusClient milvusClient;// 构造函数：初始化Milvus客户端public DocumentService(EmbeddingModel embeddingModel) {this.embeddingModel = embeddingModel;// 初始化Milvus Lite（本地内存模式，无需服务）this.milvusClient = new MilvusServiceClient(ConnectParam.newBuilder().withUri("http://localhost:19530")  // Milvus默认端口.build());// 创建集合（若不存在）createCollectionIfNotExists();}// 创建Milvus集合（包含id、text、vector三个字段）private void createCollectionIfNotExists() {try {// 定义字段List<FieldType> fields = new ArrayList<>();// id：主键fields.add(FieldType.newBuilder().withName("id").withDataType(FieldType.DataType.Int64).withPrimaryKey(true).withAutoID(true).build());// text：文档内容fields.add(FieldType.newBuilder().withName("text").withDataType(FieldType.DataType.VarChar).withMaxLength(2000).build());// vector：文本向量fields.add(FieldType.newBuilder().withName("vector").withDataType(FieldType.DataType.FloatVector).withDimension(VECTOR_DIM).build());// 创建集合milvusClient.createCollection(CreateCollectionParam.newBuilder().withCollectionName(COLLECTION_NAME).withFieldTypes(fields).build());} catch (Exception e) {// 若集合已存在，忽略异常System.out.println("Milvus集合已存在：" + e.getMessage());}}// 上传PDF文档：解析→生成向量→存储到Milvuspublic String uploadPdf(File pdfFile) {try {// 1. 解析PDF为Document列表（每页一个Document）DocumentReader reader = new PdfDocumentReader(pdfFile);List<Document> documents = reader.read();// 2. 批量生成向量（对每个Document的内容生成向量）List<String> texts = documents.stream().map(Document::getContent).toList();EmbeddingResponse embeddingResponse = embeddingModel.embed(texts);List<List<Float>> vectors = embeddingResponse.getResult().getEmbeddings();// 3. 存储到MilvusList<InsertParam.Field> insertFields = new ArrayList<>();insertFields.add(new InsertParam.Field("text", texts));insertFields.add(new InsertParam.Field("vector", vectors));InsertResponse response = milvusClient.insert(InsertParam.newBuilder().withCollectionName(COLLECTION_NAME).withFields(insertFields).build());return "上传成功！处理文档页数：" + documents.size() + "，插入Milvus条数：" + response.getInsertCount();} catch (Exception e) {return "上传失败：" + e.getMessage();}}
}

步骤 3：实现 “基于知识库的问答”

修改AIService类，添加queryWithKnowledge方法，逻辑为：

将用户问题生成向量；
在 Milvus 中检索相似向量对应的文档内容；
将 “相似文档 + 用户问题” 作为 Prompt 传给 ChatGLM3，生成回答。

java

// 在AIService中注入DocumentService和MilvusClient
private final DocumentService documentService;
private final MilvusClient milvusClient;// 构造函数新增注入
public AIService(ChatModel chatModel, DocumentService documentService, MilvusClient milvusClient) {this.chatModel = chatModel;this.documentService = documentService;this.milvusClient = milvusClient;
}// 基于知识库的问答方法
public String queryWithKnowledge(String userQuestion) {try {// 1. 将用户问题生成向量EmbeddingResponse questionEmbedding = embeddingModel.embed(List.of(userQuestion));List<Float> questionVector = questionEmbedding.getResult().getEmbeddings().get(0);// 2. 在Milvus中检索Top3相似文档String searchExpr = "text != ''";io.milvus.param.search.SearchParam searchParam = io.milvus.param.search.SearchParam.newBuilder().withCollectionName(DocumentService.COLLECTION_NAME).withVectorFieldName("vector").withQueryVectors(List.of(questionVector)).withTopK(3).withMetricType(io.milvus.param.MetricType.L2)  // 欧氏距离，越小越相似.withExpr(searchExpr).build();io.milvus.response.SearchResponse searchResponse = milvusClient.search(searchParam);List<String> similarTexts = new ArrayList<>();for (var hit : searchResponse.getResults().getHitsList().get(0).getHits()) {// 提取相似文档的text字段String text = hit.getEntity().getField("text").toString();similarTexts.add(text);}// 3. 构造包含知识库的PromptString promptTemplate = """基于以下参考文档回答用户问题，若文档中无相关信息，直接说“无法从参考文档中找到答案”：参考文档：{similarTexts}用户问题：{userQuestion}""";Map<String, Object> params = new HashMap<>();params.put("similarTexts", String.join("\n---\n", similarTexts));params.put("userQuestion", userQuestion);Prompt prompt = PromptTemplate.from(promptTemplate).create(params);// 4. 调用ChatGLM3生成回答ChatResponse response = chatModel.call(prompt);return response.getResult().getOutput().getContent();} catch (Exception e) {return "问答失败：" + e.getMessage();}
}

步骤 4：添加文件上传与问答接口

在AIController中添加接口，支持 PDF 上传和知识库问答：

java

import org.springframework.web.bind.annotation.PostMapping;
import org.springframework.web.bind.annotation.RequestPart;
import org.springframework.web.multipart.MultipartFile;
import java.io.File;
import java.io.FileOutputStream;// PDF上传接口
@PostMapping("/api/upload/pdf")
public String uploadPdf(@RequestPart MultipartFile file) {try {// 将MultipartFile转为本地FileFile tempFile = File.createTempFile("temp", ".pdf");try (FileOutputStream fos = new FileOutputStream(tempFile)) {fos.write(file.getBytes());}// 调用DocumentService上传return documentService.uploadPdf(tempFile);} catch (Exception e) {return "上传失败：" + e.getMessage();}
}// 知识库问答接口
@GetMapping("/api/query")
public String queryKnowledge(@RequestParam String question) {return aiService.queryWithKnowledge(question);
}

4.4 测试本地化知识库

启动项目，用 Postman 上传 PDF 文档：
- 请求方式：POST；
- URL：http://localhost:8080/api/upload/pdf；
- 参数：file（选择本地 PDF 文件，如《Spring Boot 手册》）；
- 响应：若显示 “上传成功！处理文档页数：10，插入 Milvus 条数：10”，说明存储正常。
调用问答接口：
- URL：http://localhost:8080/api/query?question=Spring Boot如何配置MySQL数据源；
- 响应：模型会基于上传的 PDF 内容回答，例如：

plaintext

根据参考文档，Spring Boot配置MySQL数据源步骤如下：
1. 在pom.xml中添加MySQL依赖（mysql-connector-java）；
2. 在application.properties中配置url、用户名、密码：spring.datasource.url=jdbc:mysql://localhost:3306/testspring.datasource.username=rootspring.datasource.password=123456
3. 若使用JPA，需添加spring.jpa.hibernate.ddl-auto=update配置。

至此，进阶版的 Spring AI 本地部署已完成 —— 实现了 “本地化知识库 + 本地化模型” 的全链路闭环，可应用于企业内部文档问答、私有化客服等场景。

五、本地部署常见问题与优化方案

在实际部署过程中，开发者常会遇到 “模型启动慢”“内存不足”“响应超时” 等问题。本节将汇总高频问题，提供可落地的解决方案，帮助你稳定运行本地 Spring AI 应用。

5.1 高频问题解决方案

问题 1：Ollama 启动模型时报 “内存不足”

现象：执行ollama run llama2:7b时，终端提示 “out of memory”；
原因：7B 模型需至少 8GB 内存，13B 模型需 16GB 以上，内存不足会导致模型启动失败；
解决方案：
1. 降低模型参数：改用更小的模型（如llama2:3b，仅需 4GB 内存）；
2. 启用 Swap 分区（Linux/macOS）：通过sudo fallocate -l 8G /swapfile创建 8GB 交换分区，缓解内存压力；
3. 关闭其他应用：关闭 IDE、浏览器等内存占用高的程序，优先保障模型运行。

问题 2：Spring AI 调用模型时报 “连接超时”

现象：访问/api/generate接口时，报错 “Connection timed out: connect”；
原因：Ollama 服务未启动，或 Spring AI 配置的base-url错误；
解决方案：
1. 检查 Ollama 服务：执行ollama ps，若显示 “no models running”，需先执行ollama run 模型名启动服务；
2. 验证地址：浏览器访问http://localhost:11434，若显示 “Ollama API”，说明地址正常；
3. 调整超时配置：在application.properties中添加spring.ai.ollama.chat.timeout=30000（30 秒超时，默认 10 秒）。

问题 3：模型回复中文乱码

现象：模型返回的中文是 “???” 或乱码；
原因：模型编码不支持 UTF-8，或 Spring AI 解析响应时编码错误；
解决方案：
1. 选择支持中文的模型：优先使用 ChatGLM3、Qwen 等国产模型，Llama 2 需下载中文微调版本；
2. 配置编码：在application.properties中添加spring.http.encoding.force=true，强制 UTF-8 编码；
3. 手动转码：在解析响应时添加new String(content.getBytes("ISO-8859-1"), "UTF-8")，解决编码不一致问题。

5.2 性能优化方案

1. 模型层面：降低运行压力

使用量化模型：下载 4-bit 或 8-bit 量化版本的模型（如 ChatGLM3-6B-Q4_K_M），内存占用减少 50%，响应速度提升 30%；
开启 GPU 加速：若本地有 NVIDIA 显卡，安装 CUDA（Windows/macOS 需对应版本），Ollama 会自动使用 GPU，响应速度提升 2-5 倍；
预热模型：项目启动时自动调用ollama run 模型名，避免首次请求时模型加载耗时。

2. 应用层面：减少重复计算

添加缓存：用 Spring Cache 缓存高频请求的结果，例如：

java

@Cacheable(value = "aiResponse", key = "#topic")
public String generateShortArticle(String topic) {// 原有逻辑不变
}

异步调用：将模型调用改为异步，避免阻塞 HTTP 线程，例如：

java

@Async
public CompletableFuture<String> generateAsync(String topic) {String result = generateShortArticle(topic);return CompletableFuture.completedFuture(result);
}

批量处理：若需生成多条内容，合并为一个 Prompt 批量调用，减少模型交互次数。

3. 硬件层面：合理分配资源

CPU 优化：模型运行时会占用多核心，通过taskset（Linux）或 “任务管理器”（Windows）为 Ollama 分配 2-4 个核心，避免 CPU 资源抢占；
磁盘优化：将模型文件存储在 SSD 上，模型加载速度比 HDD 快 3-5 倍；
内存优化：关闭系统休眠、虚拟内存压缩等功能，释放更多物理内存给模型。