当前位置：首页 > news >正文

基于千帆大模型的AI体检报告解读系统实战：使用OSS与PDFBox实现PDF内容识别

news 2025/7/23 22:18:51

说明

前言

需求

流程说明

表结构说明

整体流程

百度智能云

注册和实名认证

创建应用

费用说明

大模型API说明

集成大模型

设计Prompt

上传体检报告

读取PDF内容

功能实现

智能评测

抽取大模型工具

功能实现

总结

说明

AI体检报告解读、病例小结或者类似的业务可以参考，完整DEMO不提供，只提供思路。

前言

在上家公司写过AI体检报告解读和AI精准就医推荐需求，不过那时候是调用分公司AI研发部的

API，估计他们也是调用大模型，后台使用的是JeecgBoot管理数据，例如你有这个权益卡，这个

权益卡包含这个服务你就可以使用这个服务。

这次自己对接千帆大模型使用OSS上传体检报告，apache.pdfbox识别pdf内容，设置号Prompt，

调用千帆大模型对体检报告进行分析。

需求

输入如下信息，提前准备好老人体检报告（PDF格式）点击确认按钮以后，会使用AI对老人的健康

报告进行评估。

下面是健康评估的详情页面，使用AI分析后的结果页，给了很多数据，可以让护理员或销售来查看

健康状况，进一步更好的服务老人或者给老人推荐一些护理服务。

流程说明

表结构说明

建表语句：

CREATE TABLE "health_assessment" ("id" bigint NOT NULL AUTO_INCREMENT COMMENT '主键',"elder_name" varchar(255) DEFAULT NULL COMMENT '老人姓名',"id_card" varchar(255) DEFAULT NULL COMMENT '身份证号',"birth_date" datetime DEFAULT NULL COMMENT '出生日期',"age" int DEFAULT NULL COMMENT '年龄',"gender" int DEFAULT NULL COMMENT '性别(0:男，1:女)',"health_score" varchar(255) DEFAULT NULL COMMENT '健康评分',"risk_level" varchar(255) DEFAULT NULL COMMENT '严重危险(健康, 提示, 风险, 危险, 严重危险)',"suggestion_for_admission" int DEFAULT NULL COMMENT '是否建议入住(0:建议，1:不建议)',"nursing_level_name" varchar(255) DEFAULT NULL COMMENT '推荐护理等级',"admission_status" int DEFAULT NULL COMMENT '入住情况(0:已入住，1:未入住)',"total_check_date" varchar(64) DEFAULT NULL COMMENT '总检日期',"physical_exam_institution" varchar(255) DEFAULT NULL COMMENT '体检机构',"physical_report_url" varchar(255) DEFAULT NULL COMMENT '体检报告URL链接',"assessment_time" datetime DEFAULT NULL COMMENT '评估时间',"report_summary" text COMMENT '报告总结',"disease_risk" text COMMENT '疾病风险',"abnormal_analysis" text COMMENT '异常分析',"system_score" varchar(255) DEFAULT NULL COMMENT '健康系统分值',"create_by" varchar(255) DEFAULT NULL COMMENT '创建者',"create_time" datetime DEFAULT NULL COMMENT '创建时间',"update_by" varchar(255) DEFAULT NULL COMMENT '更新者',"update_time" datetime DEFAULT NULL COMMENT '更新时间',"remark" text COMMENT '备注',PRIMARY KEY ("id")
) ENGINE=InnoDB AUTO_INCREMENT=7 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci COMMENT='健康评估表';

整体流程

上传PDF文件存储到OSS
读取PDF文件内容存储到Redis key为身份证号 value为pdf识别内容
点击确定根据身份证从Redis获取pdf识别内容
结合Prompt+pdf内容调用大模型返回JSON结果接收

百度智能云

注册和实名认证

注册地址：https://qianfan.cloud.baidu.com/

需要实名认证，不然大模型调用不了，实名认证自己认证一下。

创建应用

实名认证后，需要创建一个应用，获取到这个应用的API Key和Secret Key。

地址：千帆大模型服务与开发平台ModelBuilder

进入管理平台后，找到应用接入，创建新的应用，只有创建了应用，后面才能让大模型来绑定应用

使用。

输入应用的名称，和应用的描述点击确认即可。

获取到AppId、API Key、Secret Key后续项目中调用API需要用到。

费用说明

记得充钱！！！！调用大模型需要花费TOKEN TOKEN是需要钱的！！！！

充钱才能使你变的强大！！！

大模型API说明

我们的需求中，prompt是比较多的，低版本都不支持大量token使用，所以采用ERNIE-4.0-8K-

Preview。

官方地址：https://cloud.baidu.com/doc/WENXINWORKSHOP/s/nluv1jxlp

ERNIE 4.0是百度自研的旗舰级超大规模⼤语⾔模型，相较ERNIE 3.5实现了模型能力全面升级，

广泛适用于各领域复杂任务场景；支持自动对接百度搜索插件，保障问答信息时效，支持5K

tokens输入+2K tokens输出。

对话模型，一次请求就是一次对话
提供了java的sdk调用，地址：https://github.com/baidubce/bce-qianfan-sdk/tree/main/java
支持单轮对话、多轮对话、流式
部分关键的参数：

名称	类型	必填	描述
messages	List[dict]	是	对话信息，`messages": [ {"role": "user","content": "你好"}]` message中的content总长度和system字段总内容不能超过20000个字符，且不能超过5120 tokens
model	string	是	模型名称，用于指定平台支持预置服务的模型，说明：该字段为固定值ERNIE-4.0-8K-Preview（必须开通付费）
temperature	float	否	大模型的采样参数，（1）较高的数值会使输出更加随机，而较低的数值会使其更加集中和确定（2）默认0.8，范围 (0, 1.0]，不能为0
max_output_tokens	int	否	指定模型最大输出token数，说明：（1）如果设置此参数，范围[2, 2048] （2）如果不设置此参数，最大输出token数为1024
response_format	string	否	指定响应内容的格式，说明：（1）可选值： · json_object：以json格式返回，可能出现不满足效果情况 · text：以文本格式返回（2）如果不填写参数response_format值，默认为text

集成大模型

导入依赖：

<dependency><groupId>com.baidubce</groupId><artifactId>qianfan</artifactId><version>0.1.1</version>
</dependency>

编写一个main测试方法：

public class AIModelTest {private static final String prompt = "你能帮我分析一份完整的体检报告吗？";public static void main(String[] args) {/*** 第一个参数：认证类型，固定选择 Auth.TYPE_OAUTH* 第二个参数：accessKeyId，从百度云控制台创建的应用里可以找到* 第三个参数：accessKeySecret，从百度云控制台创建的应用里可以找到*/Qianfan qianfan = new Qianfan(Auth.TYPE_OAUTH, "xEO9h4cswlghfdfdUiYpkNt", "T68lkk7XuyfgfdgfdWtCQcFCVkd2HnZuKH");ChatResponse response = qianfan.chatCompletion().model("ERNIE-4.0-8K-Preview") // 模型名称，要选择自己开通付费的模型.addMessage("user", prompt) // 聊天内容，可以设置多个，每个消息包含role（角色，user表示用户，assistant表示模型），content（消息内容）
//                .temperature(0.7) // 采样参数，取值范围(0,1]
//                .maxOutputTokens(2000) // 模型输出最大长度，取值范围[2, 2048]
//                .responseFormat("json_object")  // 模型输出格式，取值范围：text（文本）、json_object（JSON对象）.execute();String result = response.getResult();System.out.println(result);}
}

结果输出：

设计Prompt

设计之后的Prompt提示词，这里涉及了大量的专业名词和健康指标，实际开发中需要找产品经理

协助

请以一个专业医生的视角来分析这份体检报告，报告中包含了一些异常数据，我需要您对这些数据进行解读，并给出相应的健康建议。体检内容如下： 内容略.... 要求： 1. 提取体检报告中的“总检日期”； 2. 通过临床医学、疾病风险评估模型和数据智能分析，给该用户的风险等级和健康指数给出结果。风险等级分为：健康、提示、风险、危险、严重危险。健康指数范围为0至100分； 3. 根据用户身体各项指标数据，详细说明该用户各项风险等级的占比是多少，最多保留两位小数。结论格式：该用户健康占比20.00%，提示占比20.00%，风险占比20%，危险占比20%，严重危险占比20%； 4. 对于体检报告有异常数据，请列出（异常数据的结论、体检项目名称、检查结果、参考值、单位、异常解读、建议）这8字段。解读异常数据，解决这些数据可能代表的健康问题或风险。分析可能的原因，包括但不限于生活习惯、饮食习惯、遗传因素等。基于这些异常数据和可能的原因，请给出具体的健康建议，包括饮食调整、运动建议、生活方式改变以及是否需要进一步检查或治疗等。结论格式：异常数据的结论：肥胖，体检项目名称：体重指数BMI，检查结果：29.2，参考值>24，单位：-。异常解读：体重超标包括超重与肥胖。体重指数（BMI）=体重（kg）/身⾼（m）的平⽅，BMI≥24为超重，BMI≥28为肥胖；男性腰围≥90cm和⼥性腰围≥85cm为腹型肥胖。体重超标是⼀种由多因素（如遗传、进⻝油脂较多、运动少、疾病等）引起的慢性代谢性疾病，尤其是肥胖，已经被世界卫⽣组织列为导致疾病负担的⼗⼤危险因素之⼀。AI建议：采取综合措施预防和控制体重，积极改变⽣活⽅式，宜低脂、低糖、⾼纤维素膳⻝，多⻝果蔬及菌藻类⻝物，增加有氧运动。若有相关疾病（如⾎脂异常、⾼⾎压、糖尿病等）应积极治疗。 5. 根据这个体检报告的内容，分别是给人体的8大系统打分，每项满分为100分，8大系统分别为：呼吸系统、消化系统、内分泌系统、免疫系统、循环系统、泌尿系统、运动系统、感官系统 6. 给体检报告做一个总结，总结格式：体检报告中尿蛋⽩、癌胚抗原、⾎沉、空腹⾎糖、总胆固醇、⽢油三酯、低密度脂蛋⽩胆固醇、⾎清载脂蛋⽩B、动脉硬化指数、⽩细胞、平均红细胞体积、平均⾎红蛋⽩共12项指标提示异常，尿液常规共1项指标处于临界值，⾎脂、⾎液常规、尿液常规、糖类抗原、⾎清酶类等共43项指标提示正常，综合这些临床指标和数据分析：肾脏、肝胆、⼼脑⾎管存在隐患，其中⼼脑⾎管有“⾼危”⻛险；肾脏部位有“中危”⻛险；肝胆部位有“低危”⻛险。输出要求：最后，将以上结果输出为JSON格式，不要包含其他的文字说明，所有的返回结果都是json，详细格式如下： { "totalCheckDate": "YYYY-MM-DD", "healthAssessment": { "riskLevel": "healthy/caution/risk/danger/severeDanger", "healthIndex": XX.XX }, "riskDistribution": { "healthy": XX.XX, "caution": XX.XX, "risk": XX.XX, "danger": XX.XX, "severeDanger": XX.XX }, "abnormalData": [ { "conclusion": "异常数据的结论", "examinationItem": "体检项目名称", "result": "检查结果", "referenceValue": "参考值", "unit": "单位", "interpret":"对于异常的结论进一步详细的说明", "advice":"针对于这一项的异常，给出一些健康的建议" } ], "systemScore": { "breathingSystem": XX, "digestiveSystem": XX, "endocrineSystem": XX, "immuneSystem": XX, "circulatorySystem": XX, "urinarySystem": XX, "motionSystem": XX, "senseSystem": XX }, "summarize": "体检报告的总结" }

上传体检报告

点击上传体检报告后，需要将体检报告上传到阿里云OSS然后返回OSS链接，同时识别PDF文件

内容存储到Redis，点击确认的时候，根据身份证号从Redis获取PDF内容，组合Prompt调用大模

型返回JSON数据接收。

读取PDF内容

使用Apache PDFBox来识别PDF内容。

导入依赖：

<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.24</version>
</dependency>

创建一个PDFUtil工具类，接收一个文件输入流，读取PDF文件内容，返回String PDF内容。

public class PDFUtil {public static String pdfToString(InputStream  inputStream) {PDDocument document = null;try {// 加载PDF文档document = PDDocument.load(inputStream);// 创建一个PDFTextStripper实例来提取文本PDFTextStripper pdfStripper = new PDFTextStripper();// 从PDF文档中提取文本String text = pdfStripper.getText(document);return text;} catch (IOException e) {e.printStackTrace();} finally {// 关闭PDF文档if (document != null) {try {document.close();inputStream.close();} catch (IOException e) {e.printStackTrace();}}}return null;}
}

测试：

public class PDFUtilTest {public static void main(String[] args) throws FileNotFoundException {FileInputStream fileInputStream = new FileInputStream("E:\\tmp\\体检报告-刘爱国-男-69岁.pdf");String result = PDFUtil.pdfToString(fileInputStream);System.out.println(result);}
}

功能实现

OSSAliyunFileStorageService是上传文件至OSS.

@Autowired
private OSSAliyunFileStorageService fileStorageService;@Autowired
private RedisTemplate<String,String> redisTemplate;/*** 通用上传请求（单个）*/
@ApiOperation("健康文档上传")
@PostMapping("/upload")
public AjaxResult uploadFile(MultipartFile file, String idCardNo) throws Exception
{try{//生成一个名字，保证不重复，唯一String originalFilename = file.getOriginalFilename();String fileName = UUID.randomUUID().toString() + originalFilename.substring(originalFilename.lastIndexOf("."));String url = fileStorageService.store(fileName, file.getInputStream());AjaxResult ajax = AjaxResult.success();ajax.put("url", url);ajax.put("fileName", url);ajax.put("newFileName", FileUtils.getName(fileName));ajax.put("originalFilename", file.getOriginalFilename());//PDF文件内容读取为字符串String content = PDFUtil.pdfToString(file.getInputStream());//临时存储到redis中redisTemplate.opsForHash().put("healthReport", idCardNo, content);return ajax;}catch (Exception e){return AjaxResult.error(e.getMessage());}
}

智能评测

抽取大模型工具

application.yml定义配置：

baidu:accessKey: xEO9h4csw9zWlUiYpkNtsecretKey: T67Xuyx9JoCQcFCVkd2HnZuKHqianfanModel: ERNIE-4.0-8K-Preview

定义properties类方便读取配置：

@Data
@Configuration
@ConfigurationProperties(prefix = "baidu")
public class BaiduAIProperties {private String accessKey;private String secretKey;private String qianfanModel;}

模型工具类，传入组装好的Prompt，返回String JSON。

@Component
@Slf4j
public class AIModelInvoker {@Autowiredprivate BaiduAIProperties baiduAIProperties;public String qianfanInvoker(String prompt) {System.out.println(prompt);Qianfan qianfan = new Qianfan(Auth.TYPE_OAUTH, baiduAIProperties.getAccessKey(), baiduAIProperties.getSecretKey());ChatResponse response = qianfan.chatCompletion().model(baiduAIProperties.getQianfanModel()).addMessage("user", prompt).temperature(0.7).maxOutputTokens(2000).responseFormat("json_object").execute();String result = response.getResult();System.out.println(result);return result;}}

功能实现

根据大模型返回的结果数据，返回的是一个JSON，调用大模型的时候已经指定返回的格式是

JSON，然后提取JSON数据，根据返回的结果判断。

例如前端页面的柱状图、饼图数据这些都是模型返回，然后渲染的。

@Autowired
private AIModelInvoker aIModelInvoker;/*** 新增健康评估** @param healthAssessmentDto 健康评估* @return 结果*/
@Override
public Long insertHealthAssessment(HealthAssessmentDto healthAssessmentDto) {try {//组装prompt，然后调用千帆大模型来分析数据String prompt = getPrompt(healthAssessmentDto);String result = aIModelInvoker.qianfanInvoker(prompt);if (StringUtils.isEmpty(result)) {throw new BaseException("AI分析失败");}//解析数据HealthReportVo healthReportVo = JSONUtil.toBean(result, HealthReportVo.class);//保存数据Long id = insertHealthReport(healthReportVo, healthAssessmentDto);return id;} catch (BaseException e) {throw new BaseException("AI分析失败");}
}/*** 插入健康报告** @param healthReportVo* @return*/
private Long insertHealthReport(HealthReportVo healthReportVo, HealthAssessmentDto healthAssessmentDto) {HealthAssessment healthAssessment = new HealthAssessment();//总检日期healthAssessment.setTotalCheckDate(healthReportVo.getTotalCheckDate());healthAssessment.setElderName(healthAssessmentDto.getElderName());String idCard = healthAssessmentDto.getIdCard();healthAssessment.setIdCard(idCard);healthAssessment.setBirthDate(IDCardUtils.getBirthDateByIdCard(idCard));healthAssessment.setAge(IDCardUtils.getAgeByIdCard(idCard));healthAssessment.setGender(IDCardUtils.getGenderFromIdCard(idCard));double healthScore = healthReportVo.getHealthAssessment().getHealthIndex();healthAssessment.setHealthScore(String.valueOf(healthScore));healthAssessment.setRiskLevel(healthReportVo.getHealthAssessment().getRiskLevel());//是否建议入住healthAssessment.setSuggestionForAdmission(getSuggestionForAdmission(healthScore));healthAssessment.setNursingLevelName(getNursingLevelName(healthScore));healthAssessment.setAdmissionStatus(0);healthAssessment.setTotalCheckDate(healthReportVo.getTotalCheckDate());healthAssessment.setPhysicalExamInstitution(healthAssessmentDto.getPhysicalExamInstitution());healthAssessment.setPhysicalReportUrl(healthAssessmentDto.getPhysicalReportUrl());healthAssessment.setAssessmentTime(LocalDateTime.now());healthAssessment.setReportSummary(healthReportVo.getSummarize());healthAssessment.setDiseaseRisk(JSONUtil.toJsonStr(healthReportVo.getRiskDistribution()));healthAssessment.setAbnormalAnalysis(JSONUtil.toJsonStr(healthReportVo.getAbnormalData()));healthAssessment.setSystemScore(JSONUtil.toJsonStr(healthReportVo.getSystemScore()));save(healthAssessment);return healthAssessment.getId();
}/*** 计算护理等级** @param healthScore* @return*/
private String getNursingLevelName(double healthScore) {//处理边界if (healthScore < 0 || healthScore > 100) {throw new IllegalArgumentException("健康评分必须在0到100之间");}if(healthScore >= 60 && healthScore < 70){return "三级护理等级";}else if (healthScore >= 70 && healthScore < 80){return "二级护理等级";}else if (healthScore >= 80 && healthScore < 90){return "一级护理等级";}else if (healthScore >= 90){return "特级护理等级";}return "无";}/*** 是否建议入住** @param healthScore* @return*/
private Integer getSuggestionForAdmission(double healthScore) {if (healthScore >= 60) {return 0;}return 1;}@Autowired
private RedisTemplate<String, String> redisTemplate;/*** 获取prompt** @param healthAssessmentDto* @return*/
private String getPrompt(HealthAssessmentDto healthAssessmentDto) {//获取文件中的内容String content = (String) redisTemplate.opsForHash().get("healthReport", healthAssessmentDto.getIdCard());//判断是否为空if (StringUtils.isEmpty(content)) {throw new BaseException("文件提取内容失败，请重新上传提交报告");}String prompt = "请以一个专业医生的视角来分析这份体检报告，报告中包含了一些异常数据，我需要您对这些数据进行解读，并给出相应的健康建议。\n" +"体检内容如下：\n" +content + "\n" +"\n" +"要求：\n" +"1. 提取体检报告中的“总检日期”；\n" +"2. 通过临床医学、疾病风险评估模型和数据智能分析，给该用户的风险等级和健康指数给出结果。风险等级分为：健康、提示、风险、危险、严重危险。健康指数范围为0至100分；\n" +"3. 根据用户身体各项指标数据，详细说明该用户各项风险等级的占比是多少，最多保留两位小数。结论格式：该用户健康占比20.00%，提示占比20.00%，风险占比20%，危险占比20%，严重危险占比20%；\n" +"4. 对于体检报告有异常数据，请列出（异常数据的结论、体检项目名称、检查结果、参考值、单位、异常解读、建议）这8字段。解读异常数据，解决这些数据可能代表的健康问题或风险。分析可能的原因，包括但不限于生活习惯、饮食习惯、遗传因素等。基于这些异常数据和可能的原因，请给出具体的健康建议，包括饮食调整、运动建议、生活方式改变以及是否需要进一步检查或治疗等。\n" +"结论格式：异常数据的结论：肥胖，体检项目名称：体重指数BMI，检查结果：29.2，参考值>24，单位：-。异常解读：体重超标包括超重与肥胖。体重指数（BMI）=体重（kg）/身⾼（m）的平⽅，BMI≥24为超重，BMI≥28为肥胖；男性腰围≥90cm和⼥性腰围≥85cm为腹型肥胖。体重超标是⼀种由多因素（如遗传、进⻝油脂较多、运动少、疾病等）引起的慢性代谢性疾病，尤其是肥胖，已经被世界卫⽣组织列为导致疾病负担的⼗⼤危险因素之⼀。AI建议：采取综合措施预防和控制体重，积极改变⽣活⽅式，宜低脂、低糖、⾼纤维素膳⻝，多⻝果蔬及菌藻类⻝物，增加有氧运动。若有相关疾病（如⾎脂异常、⾼⾎压、糖尿病等）应积极治疗。\n" +"5. 根据这个体检报告的内容，分别是给人体的8大系统打分，每项满分为100分，8大系统分别为：呼吸系统、消化系统、内分泌系统、免疫系统、循环系统、泌尿系统、运动系统、感官系统\n" +"6. 给体检报告做一个总结，总结格式：体检报告中尿蛋⽩、癌胚抗原、⾎沉、空腹⾎糖、总胆固醇、⽢油三酯、低密度脂蛋⽩胆固醇、⾎清载脂蛋⽩B、动脉硬化指数、⽩细胞、平均红细胞体积、平均⾎红蛋⽩共12项指标提示异常，尿液常规共1项指标处于临界值，⾎脂、⾎液常规、尿液常规、糖类抗原、⾎清酶类等共43项指标提示正常，综合这些临床指标和数据分析：肾脏、肝胆、⼼脑⾎管存在隐患，其中⼼脑⾎管有“⾼危”⻛险；肾脏部位有“中危”⻛险；肝胆部位有“低危”⻛险。\n" +"\n" +"输出要求：\n" +"最后，将以上结果输出为JSON格式，不要包含其他的文字说明，所有的返回结果都是json，详细格式如下：\n" +"\n" +"{\n" +"  \"totalCheckDate\": \"YYYY-MM-DD\",\n" +"  \"healthAssessment\": {\n" +"    \"riskLevel\": \"healthy/caution/risk/danger/severeDanger\",\n" +"    \"healthIndex\": XX.XX\n" +"  },\n" +"  \"riskDistribution\": {\n" +"    \"healthy\": XX.XX,\n" +"    \"caution\": XX.XX,\n" +"    \"risk\": XX.XX,\n" +"    \"danger\": XX.XX,\n" +"    \"severeDanger\": XX.XX\n" +"  },\n" +"  \"abnormalData\": [\n" +"    {\n" +"      \"conclusion\": \"异常数据的结论\",\n" +"      \"examinationItem\": \"体检项目名称\",\n" +"      \"result\": \"检查结果\",\n" +"      \"referenceValue\": \"参考值\",\n" +"      \"unit\": \"单位\",\n" +"      \"interpret\":\"对于异常的结论进一步详细的说明\",\n" +"      \"advice\":\"针对于这一项的异常，给出一些健康的建议\"\n" +"    }\n" +"  ],\n" +"  \"systemScore\": {\n" +"    \"breathingSystem\": XX,\n" +"    \"digestiveSystem\": XX,\n" +"    \"endocrineSystem\": XX,\n" +"    \"immuneSystem\": XX,\n" +"    \"circulatorySystem\": XX,\n" +"    \"urinarySystem\": XX,\n" +"    \"motionSystem\": XX,\n" +"    \"senseSystem\": XX\n" +"  },\n" +"  \"summarize\": \"体检报告的总结\"\n" +"}";return prompt;
}