当前位置: 首页 > news >正文

开源,LangExtract-Python库用LLM从非结构化文本提取结构化信息

摘要:
LangExtract是一个Python库,利用大语言模型(LLM)根据用户定义指令从非结构化文本文档中提取结构化信息。它具备精确源定位、可靠结构化输出、长文档优化、交互式可视化、灵活LLM支持、适应任意领域等特点。可通过几行代码快速开始提取,支持云模型和本地LLM,还提供多种安装方式、API密钥设置方法、自定义模型提供商方式等。有丰富示例,如罗密欧与朱丽叶全文提取、药物提取等,且欢迎贡献,有测试和开发相关流程。

LangExtract

简介

LangExtract是一个Python库,它使用大语言模型(LLM)根据用户定义的指令从非结构化文本文档中提取结构化信息。它能处理临床笔记或报告等材料,识别并组织关键细节,同时确保提取的数据对应源文本。

为何选择LangExtract?

  • 精确的源定位:将每个提取内容映射到源文本中的准确位置,支持视觉突出显示,便于追溯和验证。
  • 可靠的结构化输出:基于少量示例强制实施一致的输出架构,利用Gemini等支持模型的受控生成来保证可靠、结构化的结果。
  • 适用于长文档:通过文本分块、并行处理和多次传递的优化策略,克服大文档提取中“大海捞针”的挑战,提高召回率。
  • 交互式可视化:立即生成自包含的交互式HTML文件,可视化并查看数千个提取实体在原始上下文中的情况。
  • 灵活的LLM支持:支持多种模型,从谷歌Gemini系列等云托管LLM到通过内置Ollama接口的本地开源模型。
  • 适应任何领域:仅用少量示例就能为任何领域定义提取任务,无需模型微调即可适应需求。
  • 利用LLM世界知识:利用精确的提示措辞和少量示例来影响提取任务对LLM知识的利用。任何推断信息的准确性及其对任务规范的遵守情况取决于所选LLM、任务复杂度、提示指令清晰度和提示示例性质。

快速开始

注意:使用Gemini等云托管模型需要API密钥。有关获取和配置密钥的说明,请参阅API密钥设置部分。

只需几行代码就能提取结构化信息。

1. 定义提取任务

首先,创建一个清晰描述要提取内容的提示。然后,提供高质量示例来指导模型。

import langextract as lx
import textwrap# 1. 定义提示和提取规则
prompt = textwrap.dedent("""\按出现顺序提取角色、情绪和关系。提取时使用文本原文。不要改写或重叠实体。为每个实体提供有意义的属性以添加上下文。""")# 2. 提供高质量示例来指导模型
examples = [lx.data.ExampleData(text="ROMEO. But soft! What light through yonder window breaks? It is the east, and Juliet is the sun.",extractions=[lx.data.Extraction(extraction_class="character",extraction_text="ROMEO",attributes={"emotional_state": "wonder"}),lx.data.Extraction(extraction_class="emotion",extraction_text="But soft!",attributes={"feeling": "gentle awe"}),lx.data.Extraction(extraction_class="relationship",extraction_text="Juliet is the sun",attributes={"type": "metaphor"}),])
]
2. 运行提取

将输入文本和提示材料提供给lx.extract函数。

# 要处理的输入文本
input_text = "Lady Juliet gazed longingly at the stars, her heart aching for Romeo"# 运行提取
result = lx.extract(text_or_documents=input_text,prompt_description=prompt,examples=examples,model_id="gemini-2.5-flash",
)

模型选择:gemini-2.5-flash是推荐的默认值,在速度、成本和质量之间提供了良好平衡。对于需要更深入推理的高度复杂任务,gemini-2.5-pro可能提供更优结果。对于大规模或生产使用,建议使用二级Gemini配额以提高吞吐量并避免速率限制。有关详细信息,请参阅速率限制文档。

模型生命周期:请注意,Gemini模型有定义的退休日期的生命周期。用户应咨询官方模型版本文档以了解最新的稳定和旧版本。

3. 可视化结果

提取结果可以保存到.jsonl文件(一种用于处理语言模型数据的流行格式)。然后,LangExtract可以从该文件生成交互式HTML可视化,以在上下文中查看实体。

# 将结果保存到JSONL文件
lx.io.save_annotated_documents([result], output_name="extraction_results.jsonl", output_dir=".")# 从文件生成可视化
html_content = lx.visualize("extraction_results.jsonl")
with open("visualization.html", "w") as f:if hasattr(html_content, 'data'):f.write(html_content.data)  # 适用于Jupyter/Colabelse:f.write(html_content)

这将创建一个动画和交互式HTML文件:罗密欧与朱丽叶基本可视化。

关于LLM知识利用的说明:

此示例演示了与文本证据密切相关的提取:提取“longing”作为朱丽叶女士的情绪状态,并从“gazed longingly at the stars”识别出“yearning”。可以修改任务以生成更多利用LLM世界知识的属性(例如,添加“identity”: “Capulet family daughter”或“literary_context”: “tragic heroine”)。文本证据和知识推断之间的平衡由提示指令和示例属性控制。

扩展到更长文档

对于较大的文本,可以直接通过URL处理整个文档,并使用并行处理和增强的敏感性:

# 直接从Project Gutenberg处理罗密欧与朱丽叶全文
result = lx.extract(text_or_documents="https://www.gutenberg.org/files/1513/1513-0.txt",prompt_description=prompt,examples=examples,model_id="gemini-2.5-flash",extraction_passes=3,    # 通过多次传递提高召回率max_workers=20,         # 并行处理以提高速度max_char_buffer=1000    # 较小的上下文以提高准确性
)

这种方法可以从完整的小说中提取数百个实体,同时保持高准确性。交互式可视化无缝处理大型结果集,使探索输出JSONL文件中的数百个实体变得容易。请参阅完整的罗密欧与朱丽叶提取示例以获取详细结果和性能见解。

安装

从PyPI安装

pip install langextract

推荐大多数用户使用。对于孤立环境,可考虑使用虚拟环境:

python -m venv langextract_env
source langextract_env/bin/activate  # 在Windows上:langextract_env\Scripts\activate
pip install langextract

从源码安装

LangExtract使用现代Python打包,通过pyproject.toml进行依赖管理:

以开发模式安装(-e)可让您在不重新安装的情况下修改代码。

git clone https://github.com/google/langextract.git
cd langextract# 基本安装:
pip install -e .# 开发安装(包括代码检查工具):
pip install -e ".[dev]"# 测试安装(包括pytest):
pip install -e ".[test]"

Docker安装

docker build -t langextract .
docker run --rm -e LANGEXTRACT_API_KEY="your-api-key" langextract python your_script.py

API密钥设置(用于云模型)

当使用LangExtract与云托管模型(如Gemini或OpenAI)时,需要设置API密钥。设备上的模型不需要API密钥。对于使用本地LLM的开发者,LangExtract内置支持Ollama,并可通过更新推理端点扩展到其他第三方API。

API密钥来源

从以下地方获取API密钥:

  • 用于Gemini模型的AI Studio
  • 用于企业使用的Vertex AI
  • 用于OpenAI模型的OpenAI平台

在环境中设置API密钥

选项1:环境变量
export LANGEXTRACT_API_KEY="your-api-key-here"
选项2:.env文件(推荐)

将API密钥添加到.env文件:

# 将API密钥添加到.env文件
cat >> .env << 'EOF'
LANGEXTRACT_API_KEY=your-api-key-here
EOF# 确保API密钥安全
echo '.env' >> .gitignore

在Python代码中:

import langextract as lxresult = lx.extract(text_or_documents=input_text,prompt_description="Extract information...",examples=[...],model_id="gemini-2.5-flash"
)
选项3:直接API密钥(不推荐用于生产)

也可以在代码中直接提供API密钥,但不推荐用于生产:

result = lx.extract(text_or_documents=input_text,prompt_description="Extract information...",examples=[...],model_id="gemini-2.5-flash",api_key="your-api-key-here"  # 仅用于测试/开发
)

添加自定义模型提供商

LangExtract通过轻量级插件系统支持自定义LLM提供商。您可以在不更改核心代码的情况下添加对新模型的支持。

  • 独立于核心库添加新模型支持
  • 将您的提供商作为单独的Python包分发
  • 隔离自定义依赖项
  • 通过基于优先级的解析覆盖或扩展内置提供商

请参阅提供商系统文档中的详细指南,了解如何:

  • 使用@registry.register(…)注册提供商
  • 发布入口点以进行发现
  • 可选地通过get_schema_class()提供具有结构化输出的架构
  • 通过create_model(…)与工厂集成

使用OpenAI模型

LangExtract支持OpenAI模型(需要可选依赖项:pip install langextract[openai]):

import langextract as lxresult = lx.extract(text_or_documents=input_text,prompt_description=prompt,examples=examples,model_id="gpt-4o",  # 自动选择OpenAI提供商api_key=os.environ.get('OPENAI_API_KEY'),fence_output=True,use_schema_constraints=False
)

注意:OpenAI模型需要fence_output=True和use_schema_constraints=False,因为LangExtract目前还没有为OpenAI实现架构约束。

使用本地LLM与Ollama

LangExtract支持使用Ollama进行本地推理,允许您在没有API密钥的情况下运行模型:

import langextract as lxresult = lx.extract(text_or_documents=input_text,prompt_description=prompt,examples=examples,model_id="gemma2:2b",  # 自动选择Ollama提供商model_url="http://localhost:11434",fence_output=False,use_schema_constraints=False
)

快速设置:从ollama.com安装Ollama,运行ollama pull gemma2:2b,然后ollama serve。

有关详细安装、Docker设置和示例,请参阅examples/ollama/。

更多示例

LangExtract的其他应用示例:

罗密欧与朱丽叶全文提取

LangExtract可以直接从URL处理完整文档。此示例演示了从Project Gutenberg的罗密欧与朱丽叶全文(147,843个字符)中提取,展示了并行处理、顺序提取传递和长文档处理的性能优化。

查看罗密欧与朱丽叶全文示例→

药物提取

免责声明:此演示仅用于说明LangExtract的基线能力。它不代表已完成或批准的产品,不用于诊断或建议任何疾病或病症的治疗,也不应用于医疗建议。

LangExtract擅长从临床文本中提取结构化医疗信息。这些示例演示了基本实体识别(药物名称、剂量、途径)和关系提取(将药物与其属性连接),展示了LangExtract在医疗保健应用中的有效性。

查看药物示例→

放射学报告结构化:RadExtract

探索RadExtract,这是一个在HuggingFace Spaces上的实时交互式演示,展示了LangExtract如何自动结构化放射学报告。无需设置即可直接在浏览器中尝试。

查看RadExtract演示→

贡献

欢迎贡献!请参阅CONTRIBUTING.md以开始开发、测试和拉取请求。提交补丁前必须签署贡献者许可协议。

测试

要从源码本地运行测试:

# 克隆仓库
git clone https://github.com/google/langextract.git
cd langextract# 安装带有测试依赖项的包
pip install -e ".[test]"# 运行所有测试
pytest tests

或使用tox重现完整的CI矩阵:

tox  # 在Python 3.10和3.11上运行pylint + pytest

Ollama集成测试

如果本地安装了Ollama,可以运行集成测试:

# 测试Ollama集成(需要运行带有gemma2:2b模型的Ollama)
tox -e ollama-integration

此测试将自动检测Ollama是否可用并运行真实推理测试。

开发

代码格式化

该项目使用自动化格式化工具来保持一致的代码风格:

# 自动格式化所有代码
./autoformat.sh# 或单独运行格式化程序
isort langextract tests --profile google --line-length 80
pyink langextract tests --config pyproject.toml

预提交钩子

用于自动格式化检查:

pre-commit install  # 一次性设置
pre-commit run --all-files  # 手动运行
http://www.dtcms.com/a/343341.html

相关文章:

  • 生产环境的 MySQL 数据库能用 Docker 吗?
  • Spring面试宝典:Spring IOC的执行流程解析
  • ES_数据存储知识
  • 基于SpringBoot的宠物用品系统【2026最新】
  • odoo-063 pip 安装 Segmentation fault (core dumped),曲线救国
  • Vue3 + TypeScript全局阻止非输入区域的Backspace键,防止回退页面
  • Redis实战-基于Session实现分布式登录
  • 深度学习——yolo学习
  • AI模型部署 - 大语言模型(LLM)部署技术与框架
  • Android auncher3实现简单的负一屏功能
  • 基于YOLOv8-SEAttention与LLMs融合的农作物害虫智能诊断与防控决策系统
  • 运动数据采集如何帮助克里斯·凯尔飞跃迎面驶来的F1赛车
  • 基于IEEE-754浮点数格式的matlab仿真
  • Day24 目录遍历、双向链表、栈
  • Mac电脑 3D建模工具--犀牛Rhino
  • 【个人网络整理】NOIP / 省选 /NOI 知识点汇总
  • 视频孪生技术在城市政务数字化转型中的应用与价值探索
  • ES_映射
  • Nacos-10--认识Nacos中的Raft协议(Nacos强一致性的实现原理)
  • VirtualBox 安装 Ubuntu Server 系统及 Ubuntu 初始配置
  • 区块链联邦学习思路一
  • 14、软件实现与测试
  • 实践题:智能健康监测系统设计方案
  • centos下安装Nginx(搭建高可用集群)
  • 亚马逊产品排名提升策略:从传统运营到AI驱动的智能化突破
  • 《信任链:幽灵签名》
  • 近端策略优化 (PPO) 算法深度解析
  • 智能求职推荐系统
  • mfc140u.dll文件是什么?解决mfc140u.dll文件丢失的有效解决方法分享
  • 密码管理中明文密码与空密码的危害与预防