智瞰风评 - 基于大语言模型的个人征信报告风险分析师
用大语言模型 (LLM) 重塑个人征信风险评估,让复杂数据秒变精准洞察。
项目概述
在金融风控领域,个人征信报告是评估信贷风险的核心依据。然而,传统的人工审阅或规则引擎分析方式,往往效率低下且难以全面、深入地挖掘报告中蕴含的风险信号。
我们创新性地推出了 「智瞰风评」 项目,这是一个基于大语言模型(LLM)的智能风险分析引擎。它能 自动、精准、结构化 地解析个人征信报告的全部内容,从基本信息到复杂的信贷历史、公共信息、非信贷履约记录及查询行为,秒级输出专业级风险评估报告。
该项目专为信贷风控人员设计,旨在作为其智能辅助工具。通过自动化处理和深度分析,「智瞰风评」能够显著提升信贷审批和风控建模的效率与准确性,降低人力成本,缩短决策链条,增强风险识别能力。它帮助风控专家快速把握客户信用全貌,识别潜在风险点,提供数据驱动的决策支持,让专家能将更多精力投入到更高价值的决策和策略制定上。
传统征信分析的弊端与「智瞰风评」的解决方案
传统方式的弊端
- 效率低下: 人工审阅一份详细的征信报告通常需要数分钟甚至更长时间,面对海量申请时,处理效率成为瓶颈。
- 主观性强且易疲劳: 依赖分析员的经验和专注度,容易因疲劳、经验不足或注意力偏差导致关键风险点被遗漏。
- 标准不一: 不同分析员可能对同一份报告有不同的解读,导致风险评估结果缺乏一致性。
- 难以处理非结构化数据: 征信报告中大量信息以非结构化文本形式存在,传统系统难以有效提取和利用这些信息进行深度分析。
- 规则僵化: 基于规则引擎的方法只能识别预设的模式,对于复杂、隐蔽或新型风险模式识别能力有限,且维护成本高。
「智瞰风评」的解决方案
- 全流程自动化: 利用先进的内容提取技术和LLM,实现从原始报告读取到结构化风险报告输出的全流程自动化,极大地提升了处理效率。
- LLM深度理解与专家知识融合: 通过精心设计的提示词(Prompt),将信贷专家的分析逻辑和专业知识内化到LLM中,使其能像专家一样进行细致、全面的分析,减少主观性影响。
- 结构化、标准化输出: 所有分析结果均以预定义的结构化数据模型(Pydantic)输出,确保了不同报告、不同时间分析结果的一致性和可比性。
- 强大的非结构化数据处理能力: LLM天然擅长处理和理解复杂的文本信息,能够深入挖掘征信报告文本中的隐含风险信号。
- 灵活且强大的分析能力: 相比僵化的规则引擎,LLM能应对更复杂、更灵活的分析场景,并且通过更新提示词或模型即可快速适应新的风险模式,扩展性更强。
核心创新点
1. LLM 驱动的深度理解
- 告别规则束缚: 突破传统基于固定规则或简单关键词匹配的局限,利用 LLM 强大的自然语言理解能力,深入解读征信报告中的每一个细节,捕捉隐含的风险信号。
- 专业知识内化: 通过精心设计的提示词(Prompt),将信贷分析师的专业知识和分析框架内化到模型中,使其具备类专家的风险判断能力。
2. 全流程自动化与结构化输出
- 端到端自动化: 从原始征信报告(支持 PDF、Word、文本等多种格式)的读取,到多维度风险点的智能识别与分析,全程自动化,极大提升分析效率。
- 结构化洞察: 输出结果非但不是笼统的结论,而是严格遵循预定义模型(Pydantic)的 结构化 JSON 数据,包含明确的风险类别、类型和专业描述,便于系统集成、数据统计和下游应用。
3. 精细化多维度风险画像
- 全面覆盖: 不仅分析基础信息(年龄、婚姻、职业),更深入挖掘信息概要(负债、逾期)、公共信息(涉诉、处罚)、非信贷履约(水电欠费)、查询行为(频繁申贷)等六大核心维度。
- 风险分级建议: 不仅识别风险,还能量化风险等级(低/中/高),并提供明确的综合风险评级与授信决策建议,为风控人员提供直接的行动指引。
4. 灵活可扩展的架构
- 多模型支持: 通过统一的
LLMWrapper
接口,可轻松接入 OpenAI、Google、Anthropic 等主流 LLM 服务,满足不同场景和成本需求。 - 模块化设计: 内容提取、LLM 分析、模型定义等模块高度解耦,便于后续功能拓展和维护。
5. 完整的技术栈与用户界面
- FastAPI 后端服务: 提供高性能的 RESTful API 接口,支持对征信报告各部分进行独立分析,便于系统集成和扩展。
- Streamlit 前端界面: 提供直观友好的用户界面,支持演示模式和真实分析模式,便于用户快速上手和使用。
- 完整的 Web 应用架构: 前后端分离设计,支持本地部署和云端部署,满足不同用户需求。
项目意义与价值
- 赋能信贷风控人员: 作为智能辅助工具,极大提升信贷审批和风控建模的效率与准确性,降低人力成本,缩短决策链条,增强风险识别能力,助力金融机构在激烈的市场竞争中抢占先机。
- 优化决策流程: 通过自动化初筛和结构化分析,为风控专家提供清晰、全面的风险视图,使其能更专注于复杂案例的深度研判和最终决策。
- 探索 LLM 金融应用: 本项目是探索大语言模型在金融风控领域深度应用的一次成功实践,展示了 LLM 在处理复杂、专业领域文本任务上的巨大潜力,为行业提供了宝贵的参考范例。
- 提供完整解决方案: 不仅提供核心分析能力,还提供完整的前后端技术栈,便于快速部署和使用。
技术栈亮点
- LangChain: 管理 LLM 调用与提示词工程。
- Pydantic: 保障输出数据结构的严谨性与一致性。
- FastAPI: 构建高性能的后端 RESTful API 服务。
- Streamlit: 快速构建直观友好的前端用户界面。
- 多种文件解析库 (如
PyPDFLoader
): 实现多源异构数据的统一接入。
系统架构
后端服务 (FastAPI)
「智瞰风评」提供了一套完整的 FastAPI 后端服务,包含以下核心 API 接口:
- 基础信息分析 (
/basic_information
) - 分析个人基本信息风险 - 信息概要分析 (
/information_summary
) - 分析征信信息概要 - 非信贷交易详情分析 (
/non_credit_transaction_details
) - 分析非信贷交易信息明细 - 公共信息详情分析 (
/public_information_details
) - 分析公共信息明细 - 查询记录分析 (
/query_history
) - 分析查询记录
所有接口均采用统一的请求/响应格式,便于系统集成和使用。
前端界面 (Streamlit)
「智瞰风评」提供了直观友好的 Streamlit 前端界面:
- 演示模式: 无需配置 API 密钥即可查看分析结果示例
- 文件内容查看: 支持查看原始征信报告内容
- Markdown 格式输出: 分析结果以 Markdown 格式显示,便于复制和使用
- 多维度分析: 专门针对个人基本信息分析提供完整演示
图:streamlit演示风险评估视图示例,直观展示客户在各个维度的风险评分。
案例展示 (基于中国人民银行征信中心官方《本人版样例.pdf》)
为了更直观地展示「智瞰风评」的能力,我们使用项目自带的样例数据进行了一次完整的分析演示。
样板数据
我们使用了中国人民银行征信中心官方提供的样例作为分析的数据。这份PDF文件包含了一个人较为复杂的征信记录,是评估系统分析能力的理想样本。
- 样本文件: 本人版样例
- 完整内容: 该文件详细记录了客户的个人基本信息、信息概要、信贷交易明细、非信贷交易明细、公共信息明细、异议标注及查询记录。
综合风险评估视图
系统不仅能提供详细的文本分析,还能生成直观的综合评估视图,帮助决策者快速把握全局风险。
图:系统生成的综合风险评估视图示例,直观展示客户在各个维度的风险评分。
分析报告摘要
1.基础风险评估
系统对客户的个人基本信息进行了分析。
- 分析结果:
- 人口统计学特征分析: 客户年龄为44岁且已婚,符合低风险标准
- 教育背景评估: 客户拥有本科及学士学位,符合低风险标准
- 联系方式稳定性分析: 近2年手机号变更1次,符合低风险标准
- 居住地址变更频率: 近3年居住地址变更4次,存在高风险
- 职业发展与工作稳定性: 近3年更换工作单位3次,当前工作稳定性不足
- 配偶信息及家庭连带风险: 配偶信息完整,但未提供配偶信用报告,存在信息盲区
- 综合风险评级与决策建议:
- 综合评估高风险,建议限制授信额度至50万元以下
- 建议补充配偶信用报告、近6个月银行流水及社保缴纳记录
2.信息概要
系统对客户的信用信息概要进行了深入分析。
- 分析结果:
- 信用历史概况分析: 近一年新增5个信贷账户,总账户数达18个,存在多头借贷风险
- 违约行为风险评估:
- 存在1笔呆账(余额23,505元),3个非循环贷账户最长逾期7个月
- 贷记卡账户存在最长逾期2个月记录,涉及金额25,484元
- 负债水平与偿债压力评估:
- 总负债规模58万元,信用卡授信使用率98%,月均还款压力24,416元
- 被追偿与代偿风险识别: 存在1笔资产处置业务(余额21,265元),表明金融机构已启动清收程序
- 公共信息风险延伸: 存在2条民事判决记录(涉及金额70万元)及2条强制执行记录(涉及金额64万元)
- 非信贷履约行为分析: 存在电信业务欠费500元及水电气等公用事业欠费200元
- 信用查询行为分析: 近1个月贷款审批查询8次,显示短期内频繁融资需求
- 综合风险评级与决策建议:
- 综合风险等级:高风险
- 授信建议:不建议授信
- 核心否决点:存在呆账、司法强制执行记录及高频贷款审批查询
- 后续监控重点:持续关注呆账清收进展、司法执行状态更新及征信查询频率变化
4.非信贷交易信息明细
系统分析了客户的非信贷交易信息,如水电费、电信费等公共事业缴费记录。
- 分析结果:
- 当前缴费状态分析: 存在2个账户当前处于欠费状态(固定电话500元+自来水200元)
- 欠费金额与持续时间分析: 固定电话欠费持续至2025年5月(当前状态为1),但2024年全年及2023年6-12月均正常缴费(N)
- 缴费记录连续性分析: 固定电话2025年1-4月记录为N,但5月突变为1(逾期1个月),存在短期履约能力波动
- 业务类型覆盖广度: 同时存在通信(固定电话)和公用事业(自来水)欠费,覆盖基础生活服务
- 账户活跃性与使用时长: 固定电话账户已使用2年8个月(开通于2022.06.17),移动电话账户使用3年10个月(开通于2021.07.09),均属长期活跃账户
- 综合风险评级与决策建议:
- 中风险
- 建议加强还款能力审查,优先处理长期欠费账户
- 需核实固定电话2025年5月逾期记录与历史缴费连续性矛盾
5.公共信息明细
系统对客户相关的公共信息进行了检索和分析。
- 分析结果:
- 欠税记录分析: 存在欠税记录,金额为500元,欠税统计日期为2023年3月17日,距今已超过1年
- 民事判决记录分析: 存在两起民事判决记录,涉及金额分别为200,000元和500,000元,判决生效日期分别为2023年10月11日和2022年7月9日
- 强制执行记录分析: 存在两起强制执行记录,执行法院分别为某市高新区人民法院和某市人民法院,执行标的金额分别为220,000元和420,000元, 案件均已执行完毕
- 行政处罚记录分析: 存在行政处罚记录,处罚机构为某市高新区地方税务局,处罚内容为没收违法所得、没收非法财务,处罚金额为400元,生效日期为2021年8月,截止日期为2024年7月
- 住房公积金参缴记录分析: 客户在某市正常缴存住房公积金,月缴存额为3,000元,单位为某银行研究中心,信息更新日期为2025年5月
- 执业资格记录分析: 客户持有证券从业资格证书和会计从业资格证书,均有效期为10年以上,且未出现吊销或过期情况
- 行政奖励记录分析: 客户曾于2023年2月获得某市总工会颁发的先进工作者奖励
- 综合风险评级与决策建议:
- 综合风险等级为高风险,建议审慎授信并核实客户当前收入与负债匹配情况
- 授信建议为审慎授信,风险缓释建议为要求提供近6个月银行流水及在职证明,核实当前收入与负债匹配情况
7.查询记录
系统分析了征信报告的查询历史。
- 分析结果:
- 机构查询频率与原因分析: 近6个月内发生3次机构贷款/信用卡审批类查询(编号2、4、8),存在较频繁信贷申请行为,需关注资金需求动机
- 查询时间集中度分析: 2025年4月至5月期间(4月22日、5月12日)连续发生2次机构贷款审批查询,短期内集中申贷,风险需重点关注
- 查询机构类型多样性: 查询机构涵盖银行(编号1、2、4、5、7)、信托公司(编号8)及财险公司(编号6),涉及3类金融机构类型,风险偏好相对 较高
- 本人查询行为分析: 近6个月内本人查询信用报告2次(编号1、2),查询渠道集中于商业银行网上银行及互联网平台,行为基本正常
- 综合风险评级与决策建议:
- 综合评估:中风险;建议:审慎授信,重点核查近半年新增贷款/信用卡审批记录,确认是否存在多头借贷或资金链紧张情况
部署与使用
后端服务部署
- 进入
fastapi
目录 - 安装依赖:
pip install -r requirements.txt
- 配置环境变量(参考
.env_example
文件) - 启动服务:
python main.py
或使用start.bat
/start.sh
前端界面使用
- 进入
streamlit_ui
目录 - 安装依赖:
pip install -r requirements.txt
- 启动应用:
streamlit run app.py
演示模式
为了便于展示和测试,我们提供了演示模式,无需配置 API 密钥即可查看分析结果示例。
三、最终风险评级与授信建议
维度 | 风险等级 | 建议措施 |
---|---|---|
总体风险 | 高风险 | 不建议授信 |
授信策略 | 若考虑授信,需严格控制额度并附加担保 | 审慎审批 |
后续监控要点 | 关注司法状态更新、征信查询频率变化、新增逾期记录 | 持续跟踪 |
不止于解读,更是为每一次信贷决策保驾护航!