中文名字英文名字日本名字txt合集
各种名字数据集说明文档
本项目包含多个名字数据集,涵盖了中文、英文、日式等多种类型的名字数据,适用于起名参考、数据分析、自然语言处理等场景。
数据集列表
1. 纯英文名字数据集
- 文件名:纯英文名字2万条.txt
- 数据量:约2万条记录
- 格式:每行一个英文名字
- 示例:
aadi aakash aaliyah
2. 中文名字数据集(区分性别)
- 文件名:中文名字120w区分性别.txt
- 数据量:约120万条记录
- 格式:CSV格式,第一行为标题(dict,sex),后面每行包含名字和性别信息,用逗号分隔
- 性别标识:男、女、未知
- 示例:
dict,sex 阿安,男 阿彬,未知 阿斌,男
3. 中文名字数据集(不区分性别)
- 文件名:中文名字120w个不分性别.txt
- 数据量:约120万条记录
- 格式:每行一个中文名字
- 示例:
阿安 阿彬 阿斌
4. 英文名字数据集(含中文翻译和性别)
- 文件名:英文名字含对应中文翻译和性别共计48万条.txt
- 数据量:约48万条记录
- 格式:每行包含中文翻译、英文名字和性别,用竖线
|
分隔 - 性别标识:M(男性)、F(女性)
- 示例:
阿阿奥卢|Al al o|M 阿阿巴伊|A Abba I|F 阿阿贝伊奥卢|Abeiolu|M
5. 古代汉语名字数据集
- 文件名:古代汉语名字25w个.txt
- 数据量:约25万条记录
- 格式:每行一个古代汉语名字
- 示例:
司马懿 诸葛亮 曹操
6. 日式中文名字数据集
- 文件名:日式中文名字18万条不区分性别.txt
- 数据量:约18万条记录
- 格式:每行一个日式中文名字
- 示例:
佐藤翔太 铃木美咲 高桥直人
7. 英式中文名字数据集
- 文件名:英式中文名字48万条不区分性别.txt
- 数据量:约48万条记录
- 格式:每行一个英式中文名字
- 示例:
李约翰 王玛丽 陈彼得
8. 中文成语数据集
- 文件名:成语50373个.txt
- 数据量:约5万条记录
- 格式:每行一个成语
- 示例:
一心一意 三心二意 四面八方
使用示例
Python 示例
读取纯英文名字列表
with open('纯英文名字2万条.txt', 'r', encoding='utf-8') as f:english_names = [line.strip() for line in f.readlines()]print(f"总共读取到 {len(english_names)} 个英文名字")
print("前10个名字:", english_names[:10])
读取中文名字及性别信息
import csvnames_with_gender = []
with open('中文名字120w区分性别.txt', 'r', encoding='utf-8') as f:reader = csv.reader(f)next(reader) # 跳过标题行for row in reader:name, gender = rownames_with_gender.append((name, gender))print(f"总共读取到 {len(names_with_gender)} 条记录")
print("前5条记录:", names_with_gender[:5])
读取英文名字含中文翻译和性别
english_names_full = []
with open('英文名字含对应中文翻译和性别共计48万条.txt', 'r', encoding='utf-8') as f:for line in f:parts = line.strip().split('|')if len(parts) == 3:chinese_name, english_name, gender = partsenglish_names_full.append({'chinese': chinese_name,'english': english_name,'gender': gender})print(f"总共读取到 {len(english_names_full)} 条记录")
print("前3条记录:", english_names_full[:3])
应用场景
- 起名应用:为新生儿或网名提供命名参考
- 数据科学:用于姓名相关的数据分析和统计
- 自然语言处理:作为语料库用于训练命名实体识别模型
- 游戏开发:为游戏角色自动生成姓名
- 测试数据生成:用于生成包含真实姓名的测试数据集
注意事项
- 所有文件均使用 UTF-8 编码
- 部分文件可能包含大量数据,读取时请注意内存使用情况
- 建议根据实际需求选择合适的数据集,避免不必要的资源浪费
项目名称 | 下载地址 |
---|---|
中文名字120w区分性别.txt | 点我下载 |
中文名字120w个不分性别.txt | 点我下载 |
英文名字含对应中文翻译和性别共计48万条.txt | 点我下载 |
英式中文名字48万条不区分性别.txt | 点我下载 |
日式中文名字18万条不区分性别.txt | 点我下载 |
古代汉语名字25万个.txt | 点我下载 |
纯英文名字2万条.txt | 点我下载 |