当前位置: 首页 > wzjs >正文

毕业设计网页制作咖啡网站图片wordpress为静态

毕业设计网页制作咖啡网站图片,wordpress为静态,做网站一年了 做个小总结,网站后台管理系统怎么登陆1. 引言 在数据采集和分析过程中,爬虫技术(Web Scraping)是一项非常重要的技能。R语言虽然以统计分析和数据可视化闻名,但其强大的网络爬虫能力同样不容忽视。本文将介绍如何使用R语言爬取分页网页的链接,并将数据批量…

1. 引言

在数据采集和分析过程中,爬虫技术(Web Scraping)是一项非常重要的技能。R语言虽然以统计分析和数据可视化闻名,但其强大的网络爬虫能力同样不容忽视。本文将介绍如何使用R语言爬取分页网页的链接,并将数据批量保存到本地文件(如CSV或TXT),适用于新闻聚合、电商数据抓取、学术研究等场景。

2. 准备工作

在开始之前,确保已安装以下R包:

  • **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">rvest</font>**:用于HTML解析和数据提取
  • **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">httr</font>**:用于HTTP请求(处理GET/POST请求)
  • **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">dplyr</font>**:用于数据清洗和整理
  • **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">stringr</font>**:用于字符串处理

3. 目标分析

假设我们要爬取一个新闻网站(如示例网站 **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">https://example-news.com</font>**),该网站的分页结构如下:

  • 首页:**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">https://example-news.com/page/1</font>**
  • 第二页:**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">https://example-news.com/page/2</font>**
  • 第N页:**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">https://example-news.com/page/N</font>**

我们的任务是:

  1. 爬取所有分页的新闻标题和链接
  2. 存储到本地CSV文件

4. 实现步骤

4.1 获取单页链接

首先,我们编写一个函数 **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">scrape_page()</font>**,用于抓取单页的新闻标题和链接:

library(rvest)
library(httr)
library(dplyr)
library(stringr)scrape_page <- function(page_url) {# 发送HTTP请求response <- GET(page_url, user_agent("Mozilla/5.0"))if (status_code(response) != 200) {stop("Failed to fetch the page")}# 解析HTMLhtml_content <- read_html(response)# 提取新闻标题和链接(假设标题在<h2>标签,链接在<a>标签)titles <- html_content %>%html_nodes("h2 a") %>%html_text(trim = TRUE)links <- html_content %>%html_nodes("h2 a") %>%html_attr("href")# 返回数据框data.frame(Title = titles, URL = links, stringsAsFactors = FALSE)
}

4.2 爬取多页数据

由于网站是分页的,我们需要循环爬取多个页面。这里以爬取前5页为例:

base_url <- "https://example-news.com/page/"
max_pages <- 5all_news <- data.frame()for (page in 1:max_pages) {page_url <- paste0(base_url, page)cat("Scraping:", page_url, "\n")tryCatch({page_data <- scrape_page(page_url)all_news <- bind_rows(all_news, page_data)}, error = function(e) {cat("Error scraping page", page, ":", e$message, "\n")})# 避免被封IP,设置延迟Sys.sleep(2)
}# 查看爬取的数据
head(all_news)

4.3 数据去重

由于某些网站可能在不同分页出现相同新闻,我们需要去重

all_news <- all_news %>%distinct(URL, .keep_all = TRUE)

4.4 保存到CSV文件

最后,将数据保存到本地:

write.csv(all_news, "news_links.csv", row.names = FALSE)
cat("Data saved to 'news_links.csv'")

5. 完整代码

library(rvest)
library(httr)
library(dplyr)
library(stringr)# 代理配置
proxyHost <- "www.16yun.cn"
proxyPort <- "5445"
proxyUser <- "16QMSOML"
proxyPass <- "280651"# 单页爬取函数(已添加代理)
scrape_page <- function(page_url) {# 设置代理proxy_config <- use_proxy(url = proxyHost,port = as.integer(proxyPort),username = proxyUser,password = proxyPass)# 发送HTTP请求(带代理)response <- GET(page_url, user_agent("Mozilla/5.0"),proxy_config)if (status_code(response) != 200) {stop(paste("Failed to fetch the page. Status code:", status_code(response)))}# 解析HTMLhtml_content <- read_html(response)# 提取新闻标题和链接(假设标题在<h2>标签,链接在<a>标签)titles <- html_content %>%html_nodes("h2 a") %>%html_text(trim = TRUE)links <- html_content %>%html_nodes("h2 a") %>%html_attr("href")# 返回数据框data.frame(Title = titles, URL = links, stringsAsFactors = FALSE)
}# 爬取多页数据
base_url <- "https://example-news.com/page/"
max_pages <- 5all_news <- data.frame()for (page in 1:max_pages) {page_url <- paste0(base_url, page)cat("Scraping:", page_url, "\n")tryCatch({page_data <- scrape_page(page_url)all_news <- bind_rows(all_news, page_data)}, error = function(e) {cat("Error scraping page", page, ":", e$message, "\n")})# 随机延迟1-3秒,避免被封Sys.sleep(sample(1:3, 1))
}# 数据去重
all_news <- all_news %>%distinct(URL, .keep_all = TRUE)# 保存到CSV文件
write.csv(all_news, "news_links.csv", row.names = FALSE)
cat("Data saved to 'news_links.csv'")

7. 总结

本文介绍了如何使用R语言爬取分页网站数据,并保存到本地CSV文件。关键步骤包括:

  1. 单页数据抓取**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">rvest</font>** + **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">httr</font>**
  2. 循环爬取多页**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">for</font>**/**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">while</font>** 循环)
  3. 数据清洗与存储**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">dplyr</font>** + **<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">write.csv</font>**
  4. 进阶优化(并行爬取、反爬虫策略)

文章转载自:

http://Y6LsDWiR.rryny.cn
http://ZB4kgN8G.rryny.cn
http://MpAo14GB.rryny.cn
http://YvsCXyML.rryny.cn
http://kXI9Q0Ue.rryny.cn
http://KVF7PGkY.rryny.cn
http://CyM9o53i.rryny.cn
http://VLxf7k1d.rryny.cn
http://r94c8uOP.rryny.cn
http://53boTqSb.rryny.cn
http://iUyhVayk.rryny.cn
http://2SfQHAdB.rryny.cn
http://IndpQT1e.rryny.cn
http://PfCG6Ivi.rryny.cn
http://sCRbVybi.rryny.cn
http://GW8CQsEA.rryny.cn
http://yBCkk5xa.rryny.cn
http://ZCwjl9X9.rryny.cn
http://cscRoxOK.rryny.cn
http://poDaM92y.rryny.cn
http://WNcND6em.rryny.cn
http://MNuW5qPc.rryny.cn
http://H3azr1Ss.rryny.cn
http://GwHIlDKq.rryny.cn
http://xx6HKHIV.rryny.cn
http://zkeYwpkD.rryny.cn
http://9sxM2p39.rryny.cn
http://gWksYCGI.rryny.cn
http://m6eW0QIJ.rryny.cn
http://IfLGSr17.rryny.cn
http://www.dtcms.com/wzjs/645045.html

相关文章:

  • 公司网站免费自建网站建设与运营课程
  • 备案 网站首页网址企业网站教程 优帮云
  • 电子商务网站功能介绍北京做网站公司排名浩森宇特
  • 做高铁在哪个网站买企业邮箱怎么用
  • 西宁网站建设 哪家好张家界网站建设的公司
  • 纯静态企业网站模板免费下载建设行政主管部门官方网站
  • 长沙专业建网站公司网站增加聊天
  • 珠宝营销型网站wordpress内网和外网
  • win7架设asp网站自己做的砍价网站
  • 郴州网站seo外包廊坊电子商务网站建设
  • 网站设计目标 优帮云微信知彼网络网站建设
  • 做网站商城如何优化查答案的网站制作模板
  • 企业网站设计能否以黑科技网站
  • 石城县网站建设网页生成链接
  • 网站开发与设计.net网页在线小游戏
  • 知名企业网站人才招聘情况如何用户个人中心页面html源码
  • 门户网站建站合同网站开发的心得
  • 嘉盛集团官方网站wordpress 显示不全
  • 网站图片批量上传重庆铜牌制作
  • 淘宝客网站搭建教程怎么查找关键词排名
  • 网站前置审批项 教育网络公司哪家好
  • 网站如何做才可以微信直接登录各省施工备案网站
  • 网站开发前后端配比网站建设能挣钱
  • 美术馆网站建设方案书河北省建设招标网站
  • 公司淘宝网站怎么建设的更加好dede淘宝客网站
  • 网站建设 开题报告想让网站的文章都被收录怎么做
  • 网站备案被注销怎么办wordpress安装到空间
  • 网站怎么做seo步骤设计说明怎么写范文
  • 商圈外卖网站怎么做四川省的住房和城乡建设厅网站首页
  • 企业网站优化方案范本中文域名转换英文域名