中文人名生成器中文姓名姓氏名字称呼日本人名翻译人名英文人名可用于中文分词人名实体识别
中文人名语料库说明文档
项目概述
本项目是一个开源的中文人名语料库,旨在为自然语言处理(NLP)任务提供高质量的数据支持。通过大数据和自然语言处理技术构建了包含5600万+人名的中文人名图谱。
项目可用于中文分词、人名识别、命名实体识别(NER)等场景。
语料库组成
中文人名语料库(Chinese_Names_Corpus)
- 数据量:约120万人名
- 来源:从亿级人名语料中提取
- 状态:已清洗,但仍有少量badcase
- 特色:新增人名生成器功能
中文古代人名语料库(Ancient_Names_Corpus)
- 数据量:约25万人名
- 来源:多个人名词典汇总
- 状态:已清洗
中文姓氏语料库(Chinese_Family_Name)
- 数据量:约1千个姓氏
- 来源:从亿级人名语料中提取
- 状态:已清洗
中文称呼语料库(Chinese_Relationship)
- 数据量:5千个称呼词根,18万条完整称呼
- 来源:多个人名词典汇总
- 状态:已清洗,但仍有大量badcase
英文翻译人名语料库(English_Cn_Name_Corpus)
- 数据量:约48万人名
- 来源:多个人名词典汇总
- 状态:已清洗,但仍有少量badcase,以地名居多
日文人名语料库(Japanese_Names_Corpus)
- 数据量:约18万人名
- 来源:从维基百科中提取
- 状态:已清洗,但仍有少量badcase
中文成语词典语料库(ChengYu_Corpus)
- 数据量:约5万条成语
- 来源:多个成语词典汇总
- 状态:已清洗
技术特点
- 多语言支持:涵盖中文、英文翻译名、日文人名
- 细分类别:常见人名、古代人名、姓氏、称呼、成语等
- 持续更新:定期删除非人名或低频badcase,提升数据质量
- 数据驱动:以大规模语料为基础,通过清洗和标注形成结构化数据
应用场景
- 中文分词
- 人名识别
- 命名实体识别(NER)
- 人名生成器
- 取名产品开发
- NLP研究
使用说明
用户可直接下载各语料文件用于本地处理或模型训练。语料以文本格式提供,便于在各种NLP工具和框架中使用。
数据地址:https://download.csdn.net/download/FL1623863129/92068352