当前位置: 首页 > news >正文

les做ml网站随州网站建设哪家好

les做ml网站,随州网站建设哪家好,怎么做网页游戏代理,html业务网站源码今天是个阴雨连绵的夏日,因此带来今天的第二篇推文。 祝您阅读愉快! 文本探索和预处理是将非结构化文本转换为结构化数据进行分析的关键步骤。 R语言中的正则表达式(Regex) 正则表达式(Regex)是定义文本模式的字符序列,用于搜索、模式匹配…

今天是个阴雨连绵的夏日,因此带来今天的第二篇推文。 祝您阅读愉快!

文本探索和预处理是将非结构化文本转换为结构化数据进行分析的关键步骤。

R语言中的正则表达式(Regex)

正则表达式(Regex)是定义文本模式的字符序列,用于搜索、模式匹配和文本替换等任务。在处理搜索引擎和垃圾邮件过滤等应用中的非结构化文本时至关重要。

R中常用的正则表达式函数:

  • grep() / grepl():定位匹配模式的字符串;grep()返回索引,grepl()返回逻辑向量。
  • regexpr() / gregexpr():返回匹配项的位置和长度;gregexpr()处理所有匹配项。
  • sub() / gsub():替换匹配项;sub()替换第一个匹配项,gsub()替换所有匹配项(g代表全局)。
  • regexec():提供详细的匹配信息,包括子表达式。

示例:在基础R中使用正则表达式

> word_vector <- c("statistics", "estate", "castrate", "catalyst", "Statistics")
> grep(pattern = "stat", x = word_vector, ignore.case = TRUE, value = TRUE)  # value=TRUE返回匹配的完整单词
[1] "statistics" "estate"     "Statistics"
> grepl(pattern = "stat", x = word_vector)  # 返回TRUE/FALSE表示是否匹配
[1]  TRUE  TRUE FALSE FALSE FALSE
> sub("stat", "STAT", word_vector, ignore.case = TRUE)  # 将第一个"stat"替换为"STAT"
[1] "STATistics" "eSTATe"     "castrate"   "catalyst"   "STATistics" # 每个单词中只替换第一个匹配项。使用`gsub`会得到相同的结果。

stringr包(tidyverse的一部分)提供了更一致的接口,其中数据始终是第一个参数。以下是使用stringr执行类似操作的方法:

library(stringr)# 检测模式(类似于grepl)
str_detect(word_vector, regex("stat", ignore_case = TRUE))
# [1]  TRUE  TRUE FALSE FALSE  TRUE# 提取匹配的字符串(类似于grep的value=TRUE)
str_subset(word_vector, regex("stat", ignore_case = TRUE))
# [1] "statistics" "estate"     "Statistics"# 替换第一个匹配项(类似于sub)
str_replace(word_vector, regex("stat", ignore_case = TRUE), "STAT")
# [1] "STATistics" "eSTATe"     "castrate"   "catalyst"   "STATistics"# 替换所有匹配项(类似于gsub)
str_replace_all("statistics is statistical", "stat", "STAT")
# [1] "STATistics is STATistical"# 计算每个字符串中的匹配次数
str_count(word_vector, regex("stat", ignore_case = TRUE))
# [1] 1 1 0 0 1

stringr的主要优势:

  1. 一致的函数命名,都以str_开头
  2. 数据始终是函数的第一个参数
  3. 更易读且支持管道操作
  4. 一致的NA值处理
  5. 内置的正则表达式辅助函数,如regex()fixed()coll()

使用tm包进行文本预处理

预处理将原始文本转换为结构化格式以便分析。R中的tm包使用语料库(文档集合)作为其核心结构,支持两种类型:

  • VCorpus:易失性,存储在内存中。
  • PCorpus:永久性,存储在外部。

预处理步骤:

  1. 创建语料库:使用VCorpusPCorpus收集文本文档。
  2. 清理原始数据
    • 转换为小写以减小词汇量。
    • 移除停用词(如"the"、“an”)、特殊字符、标点符号、数字和多余的空格。
  3. 分词:将文本分割成标记(单词或短语)以便分析。
    • 词干提取:将单词还原为词干形式(如"running"→"run")。注意过度词干化(如"university"和"universe"→"univers")或词干提取不足(如"data"和"datum"→不同的词干)的问题。
    • 词形还原:使用词汇知识找到正确的基本形式,保留词义。
      关键区别:虽然两者都将单词还原为基本形式,但词形还原会考虑上下文和词性来返回有意义的基本单词,而词干提取只是按照算法规则截取词尾。
  4. 创建词项-文档矩阵(TDM):将词项表示为行,文档表示为列,权重(如词频)作为单元格值。

示例:使用tm进行预处理

library(tm)
texts <- c("欢迎来到我的博客!", "学习R语言很有趣。")
corpus <- VCorpus(VectorSource(texts))
corpus <- tm_map(corpus, content_transformer(tolower))  # 转换为小写
corpus <- tm_map(corpus, removeWords, stopwords("english"))  # 移除停用词
corpus <- tm_map(corpus, stripWhitespace)  # 移除多余空格

分析文本数据

预处理后,可以使用以下方法分析语料库:

  • findFreqTerms():识别出现频率超过最小值的词项(如≥50次)。
  • findAssocs():查找相关性超过阈值的词项。
  • 词云:使用wordcloud2包可视化高频词。

示例:分析词频

> findFreqTerms(dtm, lowfreq = 2)  # 出现≥2次的词项
[1] "数据"     "科学"
> findAssocs(dtm, "数据", 0.8)  # 与"数据"相关的词项(相关性≥0.8)
$数据
numeric(0)

示例:创建词云

library(wordcloud2)
freq <- colSums(as.matrix(dtm))
wordcloud2(data.frame(word = names(freq), freq = freq))

请添加图片描述

结论

使用R语言中的正则表达式和tm包进行文本预处理和探索,可以将非结构化文本转化为可操作的见解。正则表达式便于模式匹配,而分词和创建词项-文档矩阵等预处理步骤则为分析做好准备。findFreqTerms()wordcloud2等工具可以快速洞察文本模式。

http://www.dtcms.com/a/559704.html

相关文章:

  • 做百度网站要注意什么洛阳市app网站开发公司电话
  • 便宜电商网站建设网络营销专业是学什么的
  • 建设官方网站意义网页升级紧急通知新域名
  • 江门网站建设 卓华淘宝客做的比较好的网站
  • asp的公司网站wordpress微信发布工具
  • 如何做cad图纸模板下载网站泰安网络建设
  • 网站对图片优化吗微商代理怎么做
  • 免费外链网站有了源代码怎么做网站
  • 建设厅施工员证查询网站免费行情软件app网站下载大全
  • 微网站建设菜单设计制作app
  • 个人网页上传网站怎么做项目管理软件 project教程
  • 品牌创意网站建设徕卡e手机app的开发与维护费用
  • 网站销售商标设计要求及规范
  • 自己搭建服务器 发布网站 域名如何申请深圳注册公司的流程和材料
  • 建网站的公司不肯签合同成都家装设计公司排名榜
  • 保险网站有哪些平台室内设计联盟注册邀请码
  • 电子商务网站开发与设计备案信息网站被注册
  • 中国最大的摄影网站网站建设是基于
  • 设计网站大全备案变更网站信息
  • 虚拟网站建设步骤网络平台运营是做什么的
  • 织梦移动端网站怎么做如何建立自己的网站教程
  • 怎么查看网站根目录中国互联网协会新春茶话会
  • 自己的博客和自己的网站做友链无人在线观看高清视频单曲直播
  • 广州市公司网站建设南宁网站建设是什么
  • 网站的后台管理员系统建设教程求一个自己做的网站链接
  • 怎么看网站有没有做百度推广wordpress免费资源网
  • 负面信息搜索引擎 网站高端品牌包包
  • wordpress添加自定义tag标签企业网站优化
  • 阿里服务器怎么做网站服务器平台网站开发公司
  • 印后设备网站建设高粱seo博客