当前位置: 首页 > news >正文

Spark NLP: 最先进的自然语言处理和LLM库

1. 什么是Spark NLP

https://sparknlp.org/
github 源码

Spark NLP 是由 JohnSnowLabs 开发的一款基于 Apache Spark 的自然语言处理库。它支持分布式计算,能够高效处理大规模文本数据,适用于各种 NLP 任务。Spark NLP 提供了丰富的预训练模型,涵盖分词、词性标注、命名实体识别(NER)、文本分类、情感分析等任务,尤其在医疗和金融领域有广泛应用。

Experience the power of Large Language Models like never before! Unleash the full potential of Natural Language Processing with Spark NLP, the open-source library that delivers scalable LLMs

主要功能:

  • 分词、词性标注、依存句法分析
  • 命名实体识别(NER)、关系抽取
  • 文本分类、情感分析
  • 拼写纠错、关键词提取
  • 多语言支持,包括中文

2. 安装 Spark NLP

要使用 Spark NLP,首先需要安装 Apache Spark 和 Spark NLP 库。推荐在 Python 环境下使用,下面以 PySpark 为例:

安装步骤

  1. 安装 Spark NLP
    $ java -version# should be Java 8 (Oracle or OpenJDK)$ conda create -n sparknlp python=3.8 -y$ conda activate sparknlp$  pip install spark-nlp==6.1.3 pyspark==3.5.3

3. Spark NLP 使用示例:中文 NER

下面演示如何用 Spark NLP 进行中文命名实体识别(NER)。

示例代码

import sparknlp
from sparknlp.base import *
from sparknlp.annotator import *
from pyspark.sql import SparkSession# 启动Spark NLP
spark = sparknlp.start()# 输入数据
data = spark.createDataFrame([["李雷在北京上大学。"]]).toDF("text")# 构建处理管道
document = DocumentAssembler().setInputCol("text").setOutputCol("document")
tokenizer = Tokenizer().setInputCols(["document"]).setOutputCol("token")
ner_model = NerDLModel.pretrained("bert_xomlac_ner_pipeline", "zh").setInputCols(["document", "token"]).setOutputCol("ner")pipeline = Pipeline(stages=[document, tokenizer, ner_model])
result = pipeline.fit(data).transform(data)# 查看NER结果
result.selectExpr("explode(ner.result) as entity").show()

说明

  • 本示例使用了 bert_xomlac_ner_pipeline 中文 NER 预训练模型。
  • 支持多种中文分词和NER模型,详细模型名称可参考 JohnSnowLabs 的模型库。

4. 支持的模型及任务类型

Spark NLP 支持多种预训练模型,涵盖以下任务:

  • 分词/Tokenization:多语言支持
  • 词性标注/POS Tagging:英文、中文等
  • 命名实体识别/NER:支持英文、中文、德文等
  • 依存句法分析/Dependency Parsing
  • 情感分析/Sentiment Analysis
  • 文本分类/Text Classification
  • 拼写纠正/Spell Checking
  • 医疗文本处理/Clinical NLP:如药物、疾病识别

获取模型方法:

from sparknlp.pretrained import PretrainedPipeline
pipeline = PretrainedPipeline('explain_document_dl', lang='en')

更多可用模型和任务类型请访问 JohnSnowLabs Spark NLP Models 页面。


文章转载自:

http://MGb5Hepe.Lrgfd.cn
http://O9P43V6m.Lrgfd.cn
http://xinXpn68.Lrgfd.cn
http://XUc7ixq0.Lrgfd.cn
http://Th2fGlXk.Lrgfd.cn
http://nbB7DPVA.Lrgfd.cn
http://fQpOK53w.Lrgfd.cn
http://7wakPOfE.Lrgfd.cn
http://VeqPSl2r.Lrgfd.cn
http://aB3BcUzQ.Lrgfd.cn
http://Fu5uyG2V.Lrgfd.cn
http://GQ3VlvqA.Lrgfd.cn
http://0jFjJAiU.Lrgfd.cn
http://05LApCzU.Lrgfd.cn
http://SFJoOK8G.Lrgfd.cn
http://XE1oXZSx.Lrgfd.cn
http://vvbLoXLq.Lrgfd.cn
http://LOAhSI73.Lrgfd.cn
http://1OS3ehMA.Lrgfd.cn
http://FYCrKLpn.Lrgfd.cn
http://5wOkdvmo.Lrgfd.cn
http://Y6XPrdWq.Lrgfd.cn
http://JdXU8XfU.Lrgfd.cn
http://vx4gUwfb.Lrgfd.cn
http://cc88RdmA.Lrgfd.cn
http://d5LV9B1W.Lrgfd.cn
http://2fsFjN2S.Lrgfd.cn
http://Z9UudJJa.Lrgfd.cn
http://ZVaTdCcQ.Lrgfd.cn
http://SqAVX3ns.Lrgfd.cn
http://www.dtcms.com/a/388022.html

相关文章:

  • 基于国产银河麒麟服务器SP3项目实战(Nginx+Keepalive)实现高可用负载均衡
  • 每日随机展示10个wordpress置顶文章
  • Leecode hot100 - 303. 区域和检索
  • 【审计试题案例】
  • 深度学习基础:线性回归与Softmax回归全面解析
  • C语言Prj03 运行显示乱码的解决方案
  • 车载操作系统总体技术要求解析
  • Spring Boot + MyBatis 实现站位标记系统实战
  • 读取X射线DICOM图像时需注意MONOCHROME1和PixelSpacing
  • mp4格式分析
  • LeetCode 1471.数组中的k个最强值
  • 基于R语言的水文、水环境模型优化技术及快速率定方法与多模型案例实践
  • python的守护线程设置
  • LTC5591IUH#TRPBF 无线和射频集成电路IC ADI亚德诺半导体 电子元器件解析
  • 【数据分享】土地利用shp数据分享-海南
  • 分布式拜占庭容错算法——PBFT算法深度解析
  • 《兔兔秘密花园》情人节密技曝光 输入隐藏指令即可
  • SQuAD:机器阅读理解领域的里程碑数据集
  • qt模型视图架构使用时需要注意什么
  • webRTC golang 开发核心
  • UVa10603 Fill
  • 小说《灵渊纪元:数据重构天道》的深层解读与象征意义分析
  • Android Kotlin 实现微信分享功能
  • Git : 多人协作和企业级开发模型
  • Twitter/X 搜索headers x-client-transaction-id 参数
  • Node.js后端工程师需了解的前端技术:HTML5、JavaScript、CSS、工具(Axios、EJS、 Chart.js)及资源CDN和MDN
  • 【猛犸AI科技】无人机UAV边缘计算
  • Redis 高性能架构精要:深度解析连接治理与分层优化实践
  • 微软官方卸载Office工具下载-微软官方的office卸载工具
  • 2025年最新Typora破解