当前位置: 首页 > news >正文

谁有手机可以上的网站网站建设 部署与发布视频

谁有手机可以上的网站,网站建设 部署与发布视频,杭州 电商设计网站建设,常州网站建设公司哪个好命名实体识别常用方法: 1.传统方法 基于规则:使用正则表达式,词典匹配或语法规则 统计机器学习 特征工程:利用词性标注、词形、上下文窗口、前缀或后缀等特征 模型:隐马尔…

命名实体识别常用方法:
    1.传统方法
        基于规则:使用正则表达式,词典匹配或语法规则
        统计机器学习
            特征工程:利用词性标注、词形、上下文窗口、前缀或后缀等特征
            模型:隐马尔可夫模型、条件随机场
    2.深度学习方法
        词嵌入:Word2Vec、GloVe等将词转化为向量
        序列建模
            BiLSTM-CRF:双向LSTM捕捉上下文,CRF优化标签序列
            Transformer模型:BERT、RoBERTa等预训练模型通过微调实现SOTA性能
            Prompt Learning:利用模板引导模型生成实体(如“找到组织:[ORG]”)
 

正则的基础知识

基本语法
元字符说明
.匹配任意字符(除换行符)
^匹配行首
$匹配行尾
*前一个字符0次或多次
+前一个字符1次或多次
?前一个字符0次或1次
[]字符集合
()分组捕获
转义字符:特殊字符需用 \ 转义:\. 匹配句号,\\ 匹配反斜杠

 预定义字符类
简写等效表达式说明
\d[0-9]数字
\w[a-zA-Z0-9_]单词字符(字母、数字、下划线)
\s[ \t\n\r\f\v]空白字符(空格、制表符等)
\D[^0-9]非数字
\W[^\w]非单词字符
\S[^\s]非空白字符

 正则表达式在NER中的应用

# 匹配"YYYY-MM-DD"或"MM/DD/YYYY"
(\d{4}-\d{2}-\d{2})|(\d{2}/\d{2}/\d{4})# 匹配11位手机号(以13/14/15/17/18/19开头)
^1[3-9]\d{9}$# 简单匹配(如user@example.com)
\w+@\w+\.(com|cn|net)# 匹配"¥100.00"或"$1,000"
[¥$]\d+(,\d{3})*(\.\d{2})?# 匹配"¥100.00"或"$1,000"
[¥$]\d+(,\d{3})*(\.\d{2})?#嵌套结构
# 匹配"北京市(海淀区)"中的地名
([^\(]+)\(([^\)]+)\)

Word2Vec的基础知识

目标:将单词映射到低维稠密向量空间,使得语义/语法相似的词在向量空间中距离相近。

两种模型架构:

1.CBOW

  • 输入:周围上下文词(窗口内的词)的向量。

  • 输出:预测当前中心词。

  • 特点

    • 适合小型数据集或高频词。

    • 训练速度快,对罕见词表现较差。

2. Skip-gram

  • 输入:当前中心词的向量。

  • 输出:预测周围上下文词。

  • 特点

    • 适合大型数据集,能更好处理罕见词。

    • 训练速度较慢,但效果通常优于CBOW。

架构对比

模型输入输出适用场景
CBOW上下文词中心词小数据、高频词
Skip-gram中心词上下文词大数据、罕见词

 训练步骤详解

 数据预处理
  • 分词:英文转为小写,中文需分词(如结巴分词)。

  • 停用词过滤:移除无意义词(如“的”、“and”)。

  • 低频词处理:删除出现次数少于 min_count 的词。

2. 构建词汇表
  • 统计词频,为每个词分配唯一索引。

  • 生成 (word, index) 映射和反向映射。

3. 模型训练(以Skip-gram为例)
  • 输入层:中心词的 one-hot 向量(维度=词汇表大小)。

  • 隐藏层:无激活函数,权重矩阵 W(维度=[vocab_size, embedding_dim])即为词向量表。

  • 输出层:Softmax 预测上下文词的概率分布。

http://www.dtcms.com/a/410091.html

相关文章:

  • 【足式机器人算法】#1 强化学习基础
  • Maven的概述/简介/安装/基本使用/IDE配置/依赖管理
  • 构建 maven:3.8.7-jdk17 镜像
  • maven install依赖后 另一个项目 maven reload找不到包
  • 北京做网站的网络公司新网站改关键词
  • SpringCloud 项目阶段十:kafka实现双端信息同步以及ElasticSearch容器搭建示例
  • 解析前端框架 Axios 的设计理念与源码:从零手写一个支持 HTTP/3 的“类 Axios”最小核
  • 共享ip服务器做网站小型创意电子产品设计
  • [Dify] 知识库架构介绍与使用场景概述
  • NFS 服务器iSCSI 服务器
  • 如何确保CMS系统能够快速响应用户请求?全面性能优化指南
  • 【202509新版】Hexo + GitHub Pages 免费部署个人博客|保姆级教程 第三部
  • 同时使用ReactUse 、 ahooks与性能优化
  • 跨境电商怎么做一件代发宁波关键词排名优化平台
  • FreeFusion:基于交叉重构学习的红外与可见光图像融合
  • GraphRAG对自然语言处理中深层语义分析的革命性影响与未来启示
  • 数据分析-60-工业时序数据分析之开关频次
  • C++入门基础知识157—【用一篇博文简单了解数据结构之红黑树】
  • 做网站课程报告阜阳网站建设哪家好
  • 吃透 Java 中的 break 与 continue
  • 【Android之路】kotlin和Jatpack compose
  • 渗透测试入门:从网络抓包到Web安全基础
  • 阿里云CDN加速流量消耗大原因:动态加速
  • 云栖2025 | 阿里云自研大数据平台 ODPS 重磅升级:全面支持AI计算和服务
  • FreeRTOS内存分配与STM32内存布局详解
  • 外贸建站的公司wordpress如何汉化主题
  • phpcms网站系统 技术方案 系统框架图网站系统开发团队简介
  • vue3+ts项目实现陕西省3d地图
  • leetcode_146 LRU缓存
  • Python常用自动化测试框架—Pytest详解