当前位置：首页 > news >正文

中文人名生成器中文姓名姓氏名字称呼日本人名翻译人名英文人名可用于中文分词人名实体识别

news 2025/10/4 10:04:11

中文人名语料库说明文档

项目概述

本项目是一个开源的中文人名语料库，旨在为自然语言处理（NLP）任务提供高质量的数据支持。通过大数据和自然语言处理技术构建了包含5600万+人名的中文人名图谱。

项目可用于中文分词、人名识别、命名实体识别（NER）等场景。

语料库组成

中文人名语料库（Chinese_Names_Corpus）

数据量：约120万人名
来源：从亿级人名语料中提取
状态：已清洗，但仍有少量badcase
特色：新增人名生成器功能

中文古代人名语料库（Ancient_Names_Corpus）

数据量：约25万人名
来源：多个人名词典汇总
状态：已清洗

中文姓氏语料库（Chinese_Family_Name）

数据量：约1千个姓氏
来源：从亿级人名语料中提取
状态：已清洗

中文称呼语料库（Chinese_Relationship）

数据量：5千个称呼词根，18万条完整称呼
来源：多个人名词典汇总
状态：已清洗，但仍有大量badcase

英文翻译人名语料库（English_Cn_Name_Corpus）

数据量：约48万人名
来源：多个人名词典汇总
状态：已清洗，但仍有少量badcase，以地名居多

日文人名语料库（Japanese_Names_Corpus）

数据量：约18万人名
来源：从维基百科中提取
状态：已清洗，但仍有少量badcase

中文成语词典语料库（ChengYu_Corpus）

数据量：约5万条成语
来源：多个成语词典汇总
状态：已清洗

技术特点

多语言支持：涵盖中文、英文翻译名、日文人名
细分类别：常见人名、古代人名、姓氏、称呼、成语等
持续更新：定期删除非人名或低频badcase，提升数据质量
数据驱动：以大规模语料为基础，通过清洗和标注形成结构化数据

应用场景

中文分词
人名识别
命名实体识别（NER）
人名生成器
取名产品开发
NLP研究

使用说明

用户可直接下载各语料文件用于本地处理或模型训练。语料以文本格式提供，便于在各种NLP工具和框架中使用。

数据地址：https://download.csdn.net/download/FL1623863129/92068352

查看全文

http://www.dtcms.com/a/439252.html

【Svelte】加载数据实现响应式的正确方式

出售自己的网站Add-ons wordpress

网络安全相关的专业术语

帝国cms影视网站模板宁波网站制作哪家强

（一）算法

23ICPC济南站补题

商务网站建设ppt模板培训网站排名

南阳市宛城区建设局网站设计本质

nacos使用指南

中山AI搜索哪家好？GEO优化与传统SEO深度解析

MySQL优化----非查询SQL优化

影视网站代理徐州市经济技术开发区建设局网站

基于单片机的三相逆变电源设计

Python基础入门例程92-NP92 公式计算器

MyCat实现分库分表

宿迁网站建设公司宣传海报制作

中铁中基建设集团网站品牌形象网站源码

中医院网站源码传智黑马培训机构

python全栈(基础篇)——day01：环境准备(python解释器安装+pycharm专业版的下载+vscode编辑器+汉化设置)

CodeForces Round 1054(div.3)C题

南宁网站建设制作定制seo搜索引擎优化招聘

3.java常用类知识点

费马小定理证明

建设中网站源码微信小程序怎么注册申请

iis7.5 没有默认网站彩票网站代理

汇编语言Debug工具与常用指令完全指南

wordpress 托管建站有了公网ip如何做网站

网站的费用多少合肥网站开发建设

零基础学习做网站蚌埠做网站建设费用

麒麟系统安装后添加自启动