当前位置: 首页 > wzjs >正文

手机好看网站模板免费下载wordpress 最简洁主题

手机好看网站模板免费下载,wordpress 最简洁主题,网站建设 沈阳,黄骅贴吧2020招聘信息上一篇文章讲解了Langchain,实现一个简单的demo,结合利用 LangChain 和 BERT 用于命名实体识别。 一、命名实体识别模型训练(bert+CRF) bert作为我们的预训练模型(用于将输入文本转换为特征向量),CRF作为我们的条件随机场(将嵌入特征转为标签),既然要训练,那么我们的损失函…

上一篇文章讲解了Langchain,实现一个简单的demo,结合利用 LangChain 和 BERT 用于命名实体识别。

一、命名实体识别模型训练(bert+CRF)

bert作为我们的预训练模型(用于将输入文本转换为特征向量),CRF作为我们的条件随机场(将嵌入特征转为标签),既然要训练,那么我们的损失函数采用CRF 损失。

注意区分 交叉熵损失和CRF损失

CRF本身也有学习参数,一起参与梯度更新,只是参数为一块转移矩阵实现标签之间的关系建模。

实现代码如下,

模型和 分词器都是使用的bert base chinese

实现了一个结合BERT和CRF模型的命名实体识别(NER)任务。首先,定义了BertCRF类,利用BERT进行特征提取,并通过CRF层进行序列标签预测。数据预处理部分使用BertTokenizerFast对输入文本进行分词,同时将标签对齐到子词级别,处理特殊token。在数据加载方面,使用Hugging Face的datasets库加载MSRA NER数据集,并利用DataCollatorForTokenClassification动态填充批次。

import torch
import torch.nn as nn
from torch.utils.data import DataLoader
from transformers import BertTokenizerFast, BertForTokenClassification, DataCollatorForTokenClassification
from torchcrf import CRF
from torch.optim import AdamW
from datasets import load_dataset
from seqeval.metrics import classification_report, accuracy_score
from tqdm.auto import tqdm# 定义BERT + CRF模型
class BertCRF(nn.Module):def __init__(self, bert_model_name, num_labels):super(BertCRF, self).__init__()# 使用预训练的BERT模型进行特征提取self.bert = BertForTokenClassification.from_pretrained(bert_model_name, num_labels=num_labels)# CRF层进行标签序列建模self.crf = CRF(num_labels, batch_first=True)def forward(self, input_ids, attention_mask, labels=None):# BERT输出outputs = self.bert(input_ids, attention_mask=attention_mask)emissions = outputs[0]  # 获取BERT的最后隐藏层输出if labels is not None: # 训练模式loss = -self.crf(emissions, labels, mask=attention_mask.bool())return losselse:predictions = self.crf.decode(emissions, mask=attention_mask.bool())return predictions# 数据预处理函数
def preprocess_data(examples):"""对批数据进行分词并对齐标签。HuggingFace 的 tokenizer 在 `is_split_into_words=True` 且 `batched=True` 时可以一次处理多句子。这里根据 `word_ids(batch_index=...)` 把原始词级别标签扩展到子词级别;对特殊 token (CLS、SEP、PAD) 使用 -100,使其在计算 loss 时被忽略。`msra_ner` 数据集的 `ner_tags` 已经是整数 ID,因此无需 label2id 转换。"""# 分词tokenized = tokenizer(examples["tokens"],
http://www.dtcms.com/wzjs/819022.html

相关文章:

  • 手机上免费自己做网站高端网站建设哪家好
  • 网站建设const是什么意思创业商机网农村
  • c 做网站在自己电脑上做网站
  • 分类信息网站发布标题内丘网站建设案例
  • 免费在线观看电影网站长沙微商城网站建设
  • 哈尔滨市建设安全监察网站_首页网站开发属于软件吗
  • 做云盘网站哪个好wordpress餐饮主题
  • 网站建设经费管理延吉市建设厅网站
  • 视频网站后台网站论文参考文献
  • 试用型网站termux 安装wordpress
  • 市局网站建设建议dw网页制作教程div
  • 网站开发运维机构设置上海公共招聘网网址
  • 温州旅游 网站建设深圳网站设计网站建设哪个好
  • 网站开发公司能否挣钱如何建立公司邮箱
  • 网站项目功能需求清单推荐的网站
  • 网站开发需要有什么证书新平台推广
  • 网站做多宽简述网站与网页的区别
  • 成都建站哪家好wordpress the_excerpt
  • 深圳富通做网站房价开始下跌最新消息
  • 惠州网站制作询问薇wordpress 设置字体
  • 黄山旅游住宿攻略视频网站如何优化
  • 校园网站建设方案书昆明优化官网服务
  • 专业网站建设集团电商数据查询平台
  • 旅游网络网站建设方案个人网站怎样申请icp
  • 网站导航设计模板嘉兴专业自助建站免费咨询
  • 想做网站的客户在哪找电脑店网站模板
  • 太仓智能网站开发北京网站开发哪家专业
  • 织梦网站装修公司源码wordpress 家教主题
  • 中国网站制作企业排行榜建设电子商务网站的规划书
  • 青岛网站建设系统wordpress分类规则