当前位置: 首页 > news >正文

导入典籍数据

1.从网上获取中医相关典籍数据,数目共600+txt,总篇数14万+

2.数据处理

获取到的数据结构大致如下

一个txt表示一本书,开头存有书籍相关的名字,作者,朝代,年份,之后每一个<目录>下都跟有一个篇目,标题由<篇名>开头,但并非所有txt都保持这样的格式,因此要先进行数据处理才能存到数据库中

2.1由于下载的txt数据编码格式不一,导致难以正常解析,因此先进行了编码统一化,将其全部变成utf-8编码格式

2.2对编码格式转化好的txt文件存入数据库

2.2.1通过对txt内容进行解析将书籍相关信息存入book表,包括bookid,name,author,dynasty,year

2.2.2删去没能成功处理的书籍

2.2.3

解析清洗后的txt文件,提取其中每本书的篇目,将它们存入classics表中

3.处理后数据提取后展示

共628篇书目

共141180个典籍篇目

相关文章:

  • Kotlin 中 companion object 扩展函数和普通函数区别
  • 【Delphi】实现在多显示器时指定程序运行在某个显示器上
  • 使用 OpenCV (C/C++) 通过二值化增强车牌识别
  • 如何选择合适的哈希算法以确保数据安全?
  • AJAX对于XML和JSON的处理
  • 腾讯云 Python3.12.8 通过yum安装 并设置为默认版本
  • dify应用探索
  • 基于ubuntu和树莓派环境对游戏进行移植
  • imx6ull(0):烧录、启动
  • JavaSE:面向对象进阶之内部类(Inner Class)
  • Uiverse.io:免费UI组件库
  • 通信革新与网络安全探索与创新:开启未来之门
  • MySQL-多表关系、多表查询
  • 绿盟 IPS 设备分析操作手册
  • 详细解析2MHz和3MHz压电陶瓷片的区别
  • TomSolver 库 | config详解及其测试
  • 嵌入式Linux 期末复习指南(下)
  • Java如何读取CSV文件并将数据放入对象中详解
  • GMDCMonitor企业版功能分享0602
  • Python列表、字典、元组、集合
  • 煎蛋wordpress二次开发/网站seo优化服务
  • 网站建设地址北京昌平/常州网站制作维护
  • 域名网站/小学生关键词大全
  • win系统做网站/建站网站关键词优化
  • iis网站伪静态/新平台怎么推广
  • 苏州写信小程序开发公司/windows优化大师的作用