当前位置: 首页 > news >正文

中文人名生成器中文姓名姓氏名字称呼日本人名翻译人名英文人名可用于中文分词人名实体识别

中文人名语料库说明文档

项目概述

本项目是一个开源的中文人名语料库,旨在为自然语言处理(NLP)任务提供高质量的数据支持。通过大数据和自然语言处理技术构建了包含5600万+人名的中文人名图谱。

项目可用于中文分词、人名识别、命名实体识别(NER)等场景。

语料库组成

中文人名语料库(Chinese_Names_Corpus)

  • 数据量:约120万人名
  • 来源:从亿级人名语料中提取
  • 状态:已清洗,但仍有少量badcase
  • 特色:新增人名生成器功能

中文古代人名语料库(Ancient_Names_Corpus)

  • 数据量:约25万人名
  • 来源:多个人名词典汇总
  • 状态:已清洗

中文姓氏语料库(Chinese_Family_Name)

  • 数据量:约1千个姓氏
  • 来源:从亿级人名语料中提取
  • 状态:已清洗

中文称呼语料库(Chinese_Relationship)

  • 数据量:5千个称呼词根,18万条完整称呼
  • 来源:多个人名词典汇总
  • 状态:已清洗,但仍有大量badcase

英文翻译人名语料库(English_Cn_Name_Corpus)

  • 数据量:约48万人名
  • 来源:多个人名词典汇总
  • 状态:已清洗,但仍有少量badcase,以地名居多

日文人名语料库(Japanese_Names_Corpus)

  • 数据量:约18万人名
  • 来源:从维基百科中提取
  • 状态:已清洗,但仍有少量badcase

中文成语词典语料库(ChengYu_Corpus)

  • 数据量:约5万条成语
  • 来源:多个成语词典汇总
  • 状态:已清洗

技术特点

  1. 多语言支持:涵盖中文、英文翻译名、日文人名
  2. 细分类别:常见人名、古代人名、姓氏、称呼、成语等
  3. 持续更新:定期删除非人名或低频badcase,提升数据质量
  4. 数据驱动:以大规模语料为基础,通过清洗和标注形成结构化数据

应用场景

  • 中文分词
  • 人名识别
  • 命名实体识别(NER)
  • 人名生成器
  • 取名产品开发
  • NLP研究

使用说明

用户可直接下载各语料文件用于本地处理或模型训练。语料以文本格式提供,便于在各种NLP工具和框架中使用。

数据地址:https://download.csdn.net/download/FL1623863129/92068352

http://www.dtcms.com/a/439252.html

相关文章:

  • 【Svelte】加载数据实现响应式的正确方式
  • 出售自己的网站Add-ons wordpress
  • 网络安全相关的专业术语
  • 帝国cms影视网站模板宁波网站制作哪家强
  • (一)算法
  • 23ICPC济南站补题
  • 商务网站建设ppt模板培训网站排名
  • 南阳市宛城区建设局网站设计本质
  • nacos使用指南
  • 中山AI搜索哪家好?GEO优化与传统SEO深度解析
  • MySQL优化----非查询SQL优化
  • 影视网站代理徐州市经济技术开发区建设局网站
  • 基于单片机的三相逆变电源设计
  • Python基础入门例程92-NP92 公式计算器
  • MyCat实现分库分表
  • 宿迁网站建设公司宣传海报制作
  • 中铁中基建设集团网站品牌形象网站源码
  • 中医院网站源码传智黑马培训机构
  • python全栈(基础篇)——day01:环境准备(python解释器安装+pycharm专业版的下载+vscode编辑器+汉化设置)
  • CodeForces Round 1054(div.3)C题
  • 南宁网站建设制作定制seo搜索引擎优化招聘
  • 3.java常用类知识点
  • 费马小定理证明
  • 建设中网站源码微信小程序怎么注册申请
  • iis7.5 没有默认网站彩票网站代理
  • 汇编语言Debug工具与常用指令完全指南
  • wordpress 托管建站有了公网ip如何做网站
  • 网站的费用多少合肥网站开发建设
  • 零基础学习做网站蚌埠做网站建设费用
  • 麒麟系统安装后添加自启动