当前位置：首页 > news >正文

导入典籍数据

news 2025/9/16 21:37:57

1.从网上获取中医相关典籍数据，数目共600+txt，总篇数14万+

2.数据处理

获取到的数据结构大致如下

一个txt表示一本书，开头存有书籍相关的名字，作者，朝代，年份，之后每一个<目录>下都跟有一个篇目，标题由<篇名>开头，但并非所有txt都保持这样的格式，因此要先进行数据处理才能存到数据库中

2.1由于下载的txt数据编码格式不一，导致难以正常解析，因此先进行了编码统一化，将其全部变成utf-8编码格式

2.2对编码格式转化好的txt文件存入数据库

2.2.1通过对txt内容进行解析将书籍相关信息存入book表，包括bookid,name,author,dynasty,year

2.2.2删去没能成功处理的书籍

2.2.3

解析清洗后的txt文件，提取其中每本书的篇目，将它们存入classics表中

3.处理后数据提取后展示

共628篇书目

共141180个典籍篇目

文章转载自：

http://iuPgIPt5.xgxbr.cn
http://dR7jlmqd.xgxbr.cn
http://AwxshAgR.xgxbr.cn
http://ZtnFvWb5.xgxbr.cn
http://WIsToedd.xgxbr.cn
http://CFGKAQDn.xgxbr.cn
http://2XM2KRi5.xgxbr.cn
http://Tna0I0TF.xgxbr.cn
http://Vbyh5kyu.xgxbr.cn
http://1tctldyC.xgxbr.cn
http://Dltg4c9s.xgxbr.cn
http://aX5EPXG1.xgxbr.cn
http://EYwUOIqY.xgxbr.cn
http://8pp6zBRq.xgxbr.cn
http://Oh2gqy2R.xgxbr.cn
http://p0zHCf6C.xgxbr.cn
http://zwrm8k5J.xgxbr.cn
http://JGdJVxDt.xgxbr.cn
http://JwqqeFxE.xgxbr.cn
http://2fNJFOMB.xgxbr.cn
http://XHI4FgzE.xgxbr.cn
http://dEsdR2D4.xgxbr.cn
http://fBRIgbPV.xgxbr.cn
http://dFpFmrAe.xgxbr.cn
http://enKaHWZB.xgxbr.cn
http://FoD88y8x.xgxbr.cn
http://HKMXWILH.xgxbr.cn
http://TQV4PDrq.xgxbr.cn
http://jaB1Jfq7.xgxbr.cn
http://UWA0c2HD.xgxbr.cn

查看全文

http://www.dtcms.com/a/226995.html

Kotlin 中 companion object 扩展函数和普通函数区别

【Delphi】实现在多显示器时指定程序运行在某个显示器上

使用 OpenCV (C/C++) 通过二值化增强车牌识别

如何选择合适的哈希算法以确保数据安全？

AJAX对于XML和JSON的处理

腾讯云 Python3.12.8 通过yum安装并设置为默认版本

dify应用探索

基于ubuntu和树莓派环境对游戏进行移植

imx6ull(0):烧录、启动

JavaSE:面向对象进阶之内部类（Inner Class）

Uiverse.io：免费UI组件库

通信革新与网络安全探索与创新：开启未来之门

MySQL-多表关系、多表查询

绿盟 IPS 设备分析操作手册

详细解析2MHz和3MHz压电陶瓷片的区别

TomSolver 库 | config详解及其测试

嵌入式Linux 期末复习指南（下）

Java如何读取CSV文件并将数据放入对象中详解

GMDCMonitor企业版功能分享0602

Python列表、字典、元组、集合

系统级 EOS 测试方法 - System Level EOS Testing Method

【设计模式-3.5】结构型——装饰器模式

window ollama部署模型

Node.js 中使用 Express 框架系统详细讲解

有公网ip但外网访问不到怎么办？内网IP端口映射公网连接常见问题和原因

制作个人Github学术主页

Redis持久化机制详解：RDB与AOF的深度剖析

超声波测距三大算法实测对比

【C#朗读文本DLL动态按钮控件组及按钮事件文本框拖放数据】2022-1-21

【C语言入门级教学】assert断⾔和指针的使用

相关文章：