当前位置：首页 > news >正文

Spark NLP: 最先进的自然语言处理和LLM库

news 2025/9/18 8:28:10

1. 什么是Spark NLP

https://sparknlp.org/
github 源码

Spark NLP 是由 JohnSnowLabs 开发的一款基于 Apache Spark 的自然语言处理库。它支持分布式计算，能够高效处理大规模文本数据，适用于各种 NLP 任务。Spark NLP 提供了丰富的预训练模型，涵盖分词、词性标注、命名实体识别（NER）、文本分类、情感分析等任务，尤其在医疗和金融领域有广泛应用。

Experience the power of Large Language Models like never before! Unleash the full potential of Natural Language Processing with Spark NLP, the open-source library that delivers scalable LLMs

主要功能：

分词、词性标注、依存句法分析
命名实体识别（NER）、关系抽取
文本分类、情感分析
拼写纠错、关键词提取
多语言支持，包括中文

2. 安装 Spark NLP

要使用 Spark NLP，首先需要安装 Apache Spark 和 Spark NLP 库。推荐在 Python 环境下使用，下面以 PySpark 为例：

安装步骤

安装 Spark NLP

    $ java -version# should be Java 8 (Oracle or OpenJDK)$ conda create -n sparknlp python=3.8 -y$ conda activate sparknlp$  pip install spark-nlp==6.1.3 pyspark==3.5.3

3. Spark NLP 使用示例：中文 NER

下面演示如何用 Spark NLP 进行中文命名实体识别（NER）。

示例代码

import sparknlp
from sparknlp.base import *
from sparknlp.annotator import *
from pyspark.sql import SparkSession# 启动Spark NLP
spark = sparknlp.start()# 输入数据
data = spark.createDataFrame([["李雷在北京上大学。"]]).toDF("text")# 构建处理管道
document = DocumentAssembler().setInputCol("text").setOutputCol("document")
tokenizer = Tokenizer().setInputCols(["document"]).setOutputCol("token")
ner_model = NerDLModel.pretrained("bert_xomlac_ner_pipeline", "zh").setInputCols(["document", "token"]).setOutputCol("ner")pipeline = Pipeline(stages=[document, tokenizer, ner_model])
result = pipeline.fit(data).transform(data)# 查看NER结果
result.selectExpr("explode(ner.result) as entity").show()

说明

本示例使用了 bert_xomlac_ner_pipeline 中文 NER 预训练模型。
支持多种中文分词和NER模型，详细模型名称可参考 JohnSnowLabs 的模型库。

4. 支持的模型及任务类型

Spark NLP 支持多种预训练模型，涵盖以下任务：

分词/Tokenization：多语言支持
词性标注/POS Tagging：英文、中文等
命名实体识别/NER：支持英文、中文、德文等
依存句法分析/Dependency Parsing
情感分析/Sentiment Analysis
文本分类/Text Classification
拼写纠正/Spell Checking
医疗文本处理/Clinical NLP：如药物、疾病识别

获取模型方法：

from sparknlp.pretrained import PretrainedPipeline
pipeline = PretrainedPipeline('explain_document_dl', lang='en')

更多可用模型和任务类型请访问 JohnSnowLabs Spark NLP Models 页面。

文章转载自：

http://MGb5Hepe.Lrgfd.cn
http://O9P43V6m.Lrgfd.cn
http://xinXpn68.Lrgfd.cn
http://XUc7ixq0.Lrgfd.cn
http://Th2fGlXk.Lrgfd.cn
http://nbB7DPVA.Lrgfd.cn
http://fQpOK53w.Lrgfd.cn
http://7wakPOfE.Lrgfd.cn
http://VeqPSl2r.Lrgfd.cn
http://aB3BcUzQ.Lrgfd.cn
http://Fu5uyG2V.Lrgfd.cn
http://GQ3VlvqA.Lrgfd.cn
http://0jFjJAiU.Lrgfd.cn
http://05LApCzU.Lrgfd.cn
http://SFJoOK8G.Lrgfd.cn
http://XE1oXZSx.Lrgfd.cn
http://vvbLoXLq.Lrgfd.cn
http://LOAhSI73.Lrgfd.cn
http://1OS3ehMA.Lrgfd.cn
http://FYCrKLpn.Lrgfd.cn
http://5wOkdvmo.Lrgfd.cn
http://Y6XPrdWq.Lrgfd.cn
http://JdXU8XfU.Lrgfd.cn
http://vx4gUwfb.Lrgfd.cn
http://cc88RdmA.Lrgfd.cn
http://d5LV9B1W.Lrgfd.cn
http://2fsFjN2S.Lrgfd.cn
http://Z9UudJJa.Lrgfd.cn
http://ZVaTdCcQ.Lrgfd.cn
http://SqAVX3ns.Lrgfd.cn

查看全文

http://www.dtcms.com/a/388022.html

基于国产银河麒麟服务器SP3项目实战（Nginx+Keepalive）实现高可用负载均衡

每日随机展示10个wordpress置顶文章

Leecode hot100 - 303. 区域和检索

【审计试题案例】

深度学习基础：线性回归与Softmax回归全面解析

C语言Prj03 运行显示乱码的解决方案

车载操作系统总体技术要求解析

Spring Boot + MyBatis 实现站位标记系统实战

读取X射线DICOM图像时需注意MONOCHROME1和PixelSpacing

mp4格式分析

LeetCode 1471.数组中的k个最强值

基于R语言的水文、水环境模型优化技术及快速率定方法与多模型案例实践

python的守护线程设置

LTC5591IUH#TRPBF 无线和射频集成电路IC ADI亚德诺半导体电子元器件解析

【数据分享】土地利用shp数据分享-海南

分布式拜占庭容错算法——PBFT算法深度解析

《兔兔秘密花园》情人节密技曝光输入隐藏指令即可

SQuAD：机器阅读理解领域的里程碑数据集

qt模型视图架构使用时需要注意什么

webRTC golang 开发核心

UVa10603 Fill

小说《灵渊纪元：数据重构天道》的深层解读与象征意义分析

Android Kotlin 实现微信分享功能

Git : 多人协作和企业级开发模型

Twitter/X 搜索headers x-client-transaction-id 参数

Node.js后端工程师需了解的前端技术：HTML5、JavaScript、CSS、工具（Axios、EJS、 Chart.js）及资源CDN和MDN

【猛犸AI科技】无人机UAV边缘计算

Redis 高性能架构精要：深度解析连接治理与分层优化实践

微软官方卸载Office工具下载-微软官方的office卸载工具

2025年最新Typora破解