当前位置: 首页 > news >正文

NER实践总结,记录一下自己实践遇到的各种问题。

更。

没卡,跑个模型休息好几天,又闲又急。

一开始直接套用了别人的代码进行实体识别,结果很差,原因是他的词表没有我需要的东西,我是用的医学文本。代码直接在github找了改的,用的是BERT的Chinese版本。


然后想了解决办法就是使用自己创建词表的方法先处理一下整个文本数据,将高频词合并(1000个)。前一千个我自己去筛选。结果效果很差,很多没包含的,很多不是词也和一起了,非常烂(相当蠢的一个办法还浪费了很长时间大家别尝试了)。


然后想了新的解决办法是在网上找那种公开的医学书的目录,作为词表,比如某一章节讲高血压,就可以作为词表。因此去找了中华药典等之类的书,放入词表进行训练。效果还可以,但还是有很多错误。


最后发现是因为没有提前删标点之类的东西,导致句子太长。因此使用re包重新处理了数据,再跑,效果相当不错。感人。

需要北美求职的小伙伴,可以私我哦,硅谷大厂大佬亲自求职陪跑!保证拿到实习offer~

此外还开发了一些小工具:

ai求职——Jobnova powered by Liba Space - Get the most timely job recommendations

ai面试——Jobnova powered by Liba Space - Get the most timely job recommendations

欢迎参与尝试。

相关文章:

  • [JS逆向] 烯牛数据
  • HCIE-Datacom笔试题库
  • LVS、NGINX、HAPROXY的调度算法
  • if(!p)等价于 if(p==0)
  • C#Winform中DevExpress下的datagridview 特定列可编辑,其他列不可编辑
  • 6个月Python学习计划 Day 14 - 阶段复盘 + 项目练习测试
  • 功率估计和功率降低方法指南(1~2)
  • C++ PCL库 预编译安装与排错:common is required but boost was not found
  • ROS2性能狂飙:C++11移动语义‘偷梁换柱’实战
  • 爬虫学习记录day1
  • 【Linux庖丁解牛】—自定义shell的编写!
  • Elasticsearch的搜索流程描述
  • 《Docker》架构
  • 舆情监控系统爬虫技术解析
  • 针对KG的神经符号集成综述 两篇
  • 如何判断是 CPU 密集还是 IO 密集型任务?
  • 深入理解CSS浮动:从基础原理到实际应用
  • Python_day44
  • 在C++中,头文件(.h或.hpp)的标准写法
  • 修改 Windows 10/11 的系统设置中显示的安装日期
  • 扁平式网站seo 内链/seo成创网络
  • 如何用eclipse做网站/百度搜索网站优化
  • 哪些网站是用vue做的/品牌营销的概念
  • 辽宁学网站建设专业学校/电商运营培训哪个机构好
  • 有没有专门学做婴儿衣服的网站/电商培训班一般多少钱
  • 如何做竞价网站数据监控/农产品营销方案