当前位置: 首页 > wzjs >正文

备案网站资料上传教程自己代理一款手游需要多少钱

备案网站资料上传教程,自己代理一款手游需要多少钱,大型网站建设济南兴田德润团队怎么样,北大青鸟网站建设课程上一篇文章讲解了Langchain,实现一个简单的demo,结合利用 LangChain 和 BERT 用于命名实体识别。 一、命名实体识别模型训练(bert+CRF) bert作为我们的预训练模型(用于将输入文本转换为特征向量),CRF作为我们的条件随机场(将嵌入特征转为标签),既然要训练,那么我们的损失函…

上一篇文章讲解了Langchain,实现一个简单的demo,结合利用 LangChain 和 BERT 用于命名实体识别。

一、命名实体识别模型训练(bert+CRF)

bert作为我们的预训练模型(用于将输入文本转换为特征向量),CRF作为我们的条件随机场(将嵌入特征转为标签),既然要训练,那么我们的损失函数采用CRF 损失。

注意区分 交叉熵损失和CRF损失

CRF本身也有学习参数,一起参与梯度更新,只是参数为一块转移矩阵实现标签之间的关系建模。

实现代码如下,

模型和 分词器都是使用的bert base chinese

实现了一个结合BERT和CRF模型的命名实体识别(NER)任务。首先,定义了BertCRF类,利用BERT进行特征提取,并通过CRF层进行序列标签预测。数据预处理部分使用BertTokenizerFast对输入文本进行分词,同时将标签对齐到子词级别,处理特殊token。在数据加载方面,使用Hugging Face的datasets库加载MSRA NER数据集,并利用DataCollatorForTokenClassification动态填充批次。

import torch
import torch.nn as nn
from torch.utils.data import DataLoader
from transformers import BertTokenizerFast, BertForTokenClassification, DataCollatorForTokenClassification
from torchcrf import CRF
from torch.optim import AdamW
from datasets import load_dataset
from seqeval.metrics import classification_report, accuracy_score
from tqdm.auto import tqdm# 定义BERT + CRF模型
class BertCRF(nn.Module):def __init__(self, bert_model_name, num_labels):super(BertCRF, self).__init__()# 使用预训练的BERT模型进行特征提取self.bert = BertForTokenClassification.from_pretrained(bert_model_name, num_labels=num_labels)# CRF层进行标签序列建模self.crf = CRF(num_labels, batch_first=True)def forward(self, input_ids, attention_mask, labels=None):# BERT输出outputs = self.bert(input_ids, attention_mask=attention_mask)emissions = outputs[0]  # 获取BERT的最后隐藏层输出if labels is not None: # 训练模式loss = -self.crf(emissions, labels, mask=attention_mask.bool())return losselse:predictions = self.crf.decode(emissions, mask=attention_mask.bool())return predictions# 数据预处理函数
def preprocess_data(examples):"""对批数据进行分词并对齐标签。HuggingFace 的 tokenizer 在 `is_split_into_words=True` 且 `batched=True` 时可以一次处理多句子。这里根据 `word_ids(batch_index=...)` 把原始词级别标签扩展到子词级别;对特殊 token (CLS、SEP、PAD) 使用 -100,使其在计算 loss 时被忽略。`msra_ner` 数据集的 `ner_tags` 已经是整数 ID,因此无需 label2id 转换。"""# 分词tokenized = tokenizer(examples["tokens"],
http://www.dtcms.com/wzjs/301130.html

相关文章:

  • 做网站的开发心得中国新冠疫苗接种率
  • 网站开发攻略广州做seo整站优化公司
  • 公司网站的服务费做哪个科目seo如何快速排名百度首页
  • ios风格网站模板整站快速排名
  • 用css做商务网站的代码建站系统源码
  • 青岛城阳网站设计平台优化
  • 企业怎么做网站网址收录查询
  • 那方面 搜索网站网络营销的特点有哪些?
  • 网站排名优化外包公司千锋教育
  • 还能做网站的分类360站长工具
  • 网站的导入流量怎么做宁德市住房和城乡建设局
  • 大连做公司网站哪家好主要推广手段免费
  • 做彩票预测网站违法吗安卓内核级优化神器
  • 福田做商城网站建设找哪家公司比较安全网站软件下载
  • 怎样用网站做淘宝推广收录批量查询
  • 傻瓜使用模板建网站百度网盟推广怎么做
  • 短视频素材网站免费大推荐天津seo外包平台
  • 查看网站开发语言方法磁力链最佳的搜索引擎
  • 政务服务 网站 建设方案关键词异地排名查询
  • 杭州网站建设是什么sem运营有出路吗
  • 济宁创企网络技术有限公司seo优化标题 关键词
  • 网站运营与管理的心得体会代推广平台
  • 免费化工网站建设中国十大公关公司排名
  • 网站建设平台分析营销软文怎么写
  • 公司装修哪家比较好武汉做seo公司
  • 简洁网站首页模板长沙推广引流
  • 黑河网站建设公司营销渠道的三个类型
  • 做视频教学网站如何做太原做网站的
  • 手机网站与app的区别怎么开网站详细步骤
  • 在哪个网站可以学做淘宝详情深圳关键词首页排名