当前位置: 首页 > wzjs >正文

wordpress开发视频网站模板下载南通优化网站价格

wordpress开发视频网站模板下载,南通优化网站价格,单位网站建设流程,北京单页营销型网站制作使用代码处理数据集,发现了一些问题,以及解决办法~ 下载了一组数据集,数据存放在CSV中,GBK格式。如下: 首先对每一列直接进行NER抽取,结果非常不好: 几乎是乱抽取的,解决办法是自己创…

使用代码处理数据集,发现了一些问题,以及解决办法~

下载了一组数据集,数据存放在CSV中,GBK格式。如下:

首先对每一列直接进行NER抽取,结果非常不好:

几乎是乱抽取的,解决办法是自己创建了一个词库:

创建词库需要对自己的数据集进行分词,然后对出现次数进行统计,我统计了前1000个:

import pandas as pd
import os
from collections import Counter
import jieba
from tqdm import tqdminput_dir = 'data/chinese_dialogue_medical'
fields = ['title', 'ask', 'answer']
all_text = []# 读取所有csv文件内容
def read_all_text():print("开始读取CSV文件...")csv_files = [f for f in os.listdir(input_dir) if f.endswith('.csv')]for file in tqdm(csv_files, desc="处理CSV文件"):path = os.path.join(input_dir, file)try:df = pd.read_csv(path, encoding='gbk')print(f"成功读取 {file} (GBK编码)")except Exception:try:df = pd.read_csv(path, encoding='gb18030')print(f"成功读取 {file} (GB18030编码)")except Exception as e:print(f"无法读取 {file}: {str(e)}")continuefor field in fields:if field in df.columns:texts = df[field].dropna().astype(str).tolist()all_text.extend(texts)print(f"从 {file} 的 {field} 字段中提取了 {len(texts)} 条文本")# 分词并统计高频词
def stat_terms():print("\n开始分词和统计...")words = []for text in tqdm(all_text, desc="分词处理"):words.extend(list(jieba.cut(text)))print("统计词频...")counter = Counter(words)# 过滤掉长度为1的词和常见无意义词stopwords = set([',', '。', '的', '了', '和', '是', '在', '我', '有', '也', '就', '不', '都', '与', '及', '或', '你', '他', '她', '吗', '啊', '吧', '哦', '呢', '!', '?', '、', ':', ';', '(', ')', '(', ')', '[', ']', '{', '}', ' ', '', '\n'])result = [(w, c) for w, c in counter.most_common() if len(w) > 1 and w not in stopwords]return resultif __name__ == '__main__':read_all_text()print(f"\n总共读取了 {len(all_text)} 条文本")result = stat_terms()print(f"\n统计出 {len(result)} 个高频词")# 输出前300个高频词到txtoutput_file = 'data/auto_medical_terms.txt'with open(output_file, 'w', encoding='utf-8') as f:for w, c in result[:1000]:f.write(f'{w}\t{c}\n')print(f'高频词统计完成,结果已保存到 {output_file}') 

然后将疾病相关的词放到我的词表中去。

基于新的词表进行训练,结果如下:

没有识别出来...解决中。 

然后发现没有正确加载词表,此外词表未加入同义词等内容。解决中。

刚刚代码有问题,修改之后重新识别。首先,我第一次设计的词表非常不完善,后续增加了中国药典、疾病指南之类的官方书籍的目录进去,现在比较全面了。

其次,我刚刚没有使用到实体识别的模型。


文章转载自:

http://CgAF2f1Z.kgsLc.cn
http://tBzouf71.kgsLc.cn
http://Ja3SjYgR.kgsLc.cn
http://Gf7bAE1g.kgsLc.cn
http://AyV6H1aU.kgsLc.cn
http://WWX5A6PE.kgsLc.cn
http://M4hRdTJP.kgsLc.cn
http://YF3g9CRE.kgsLc.cn
http://IiWW2dGC.kgsLc.cn
http://HlCmW31K.kgsLc.cn
http://AsUF62P4.kgsLc.cn
http://0Inf791P.kgsLc.cn
http://9vXRbUSO.kgsLc.cn
http://Y4WxvnIA.kgsLc.cn
http://ve1afxWg.kgsLc.cn
http://N9B1gSDW.kgsLc.cn
http://8itFHiOl.kgsLc.cn
http://arhJyRic.kgsLc.cn
http://Sl0xmjjp.kgsLc.cn
http://s54OA5sq.kgsLc.cn
http://QqD3c121.kgsLc.cn
http://nbZbGWRX.kgsLc.cn
http://LxZnn821.kgsLc.cn
http://I49TrwZ3.kgsLc.cn
http://7tNKcfHo.kgsLc.cn
http://bpNA7k7Z.kgsLc.cn
http://G5LxGiom.kgsLc.cn
http://0b0YT6NX.kgsLc.cn
http://u37U7Cc2.kgsLc.cn
http://26FhtYLK.kgsLc.cn
http://www.dtcms.com/wzjs/666525.html

相关文章:

  • 网站开发与网站制作做产品网站费用
  • 旅游网站设计风格网站开发过程会遇到的问题
  • 蔚县网站建设wl17581html5网页设计源代码
  • 惠民建设局网站网站编辑没有经验可以做吗
  • 注册型网站推广社交网站源代码
  • 电子商务网站建设对毕业设计海口建设网站建设
  • 节点网站郑州seo顾问热狗hotdoger
  • 天津专业网站建设公司网上可以注销营业执照吗
  • 网站建设情况 报告学用mvc4做网站
  • 河间网站网站建设南昌自助建站
  • 网站域名证书哪里获取网站设计在线
  • 合肥网站建设晨飞抖音小程序怎么开发自己的小程序
  • 如何查询网站域名备案润和软件是外包公司吗
  • 门户网站代做电子商务网络营销方式有哪些
  • 自己买域名建设网站百度站长反馈
  • 天津放心站内优化seo宿迁网站建设电话
  • 类似wordpress的网站php网站优点
  • 做淘客哪个网站好点湖北网站建设怎样
  • 20个中国风网站设计欣赏wordpress 用户注册插件
  • 西安将军山网站建设定制网站建设价格
  • wordpress的商城网站制作公司中国网站建设20强
  • 网站建设介绍263个人邮箱注册
  • 网站流量统计主要指标包括做网站流量的方法
  • 要建网站内蒙古建设执业资格注册中心网站
  • 谷歌云 搭建wordpressseo快速排名上首页
  • 网站建设可以抵扣吗建筑公司网站模板免费下载
  • 蚌埠专业制作网站的公司如何创建网站名称
  • 唐山做网站哪家好如何让百度分享按钮在网站每个页面都有
  • 资源优化排名网站网站首页的模块布局
  • 泉州建站方案电脑培训