当前位置: 首页 > news >正文

BERT 总结

自用

目录

1. 模型结构

2. 预训练任务

3. 使用方式

4. 应用场景(下游任务)

5. 特点 & 贡献

6. 局限性


1. 模型结构

  • 基于 Transformer Encoder(没有 Decoder)

  • 主要参数

    • L:层数(BERT-Base 12 层,BERT-Large 24 层)

    • H:隐层维度(768 / 1024)

    • A:注意力头数(12 / 16)

  • 输入嵌入 = 词嵌入 + 位置嵌入 + 句子嵌入

  • 输出:对每个 token 的上下文向量表示


2. 预训练任务

BERT 用 无监督语料 训练,目标是学到通用语言表示:

  1. MLM (Masked Language

http://www.dtcms.com/a/418759.html

相关文章:

  • java设计模式五、适配器模式
  • 语音识别的评价指标
  • 成都建设企业网站果麦传媒的网站怎么做的
  • python:Django 和 Vue.js 技术栈解析
  • (二十六)、Kuboard 部署网络问题 k8s 使用本地镜像 k8s使用 register本地镜像站 综合应用
  • 腾讯云上TKE集群中通过clb-ingress公网访问到后端服务
  • 信阳做网站公司编程培训机构加盟怎样
  • vps空间如何做网站备份如何提高网站的搜索
  • 广州免费自助建站开发建设工程什么意思
  • Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
  • 用deepseek部署全自动的机器人--bytebot
  • 网站开发者模式下怎么保存图片建设网站空间
  • 兰州新区建站07073游戏网
  • 营销型网站建站教程wordpress edit lock
  • 如何将华为手机的照片转移到电脑
  • 云手机的主要核心是什么
  • 三防手机是什么?有哪些值得购入的三防手机?
  • 网站的文件夹上海网站备案在哪里查询
  • 秋招算法记录 | 排序算法整理 | 直接选择、直接插入、冒泡、快排、希尔排序
  • Docker 容器如何实现隔离
  • ThinkPHP8学习篇(八):数据库(四)
  • 专业商城网站设计制作wordpress用户中心制作
  • 加强住房公积金网站建设搜索推广的优势
  • 【BTC】比特币脚本
  • 人工智能吉他教学研究:基于Liberlive与TemPolor的产品与教学思考[特殊字符]
  • 电脑开机显示屏显示无信号怎么办 原因及解决方法
  • 怎么攻击织梦网站网站发布 图片看不到
  • ROS1 go2 vlp16 局部避障--3 篇
  • 【奇怪的bug】lua的nil不报错
  • 有哪些做短租的网站好浙江省建设厅网站查询