当前位置：首页 > news >正文

谷歌学术内容爬取

news 2025/10/22 12:52:15

最近面临导师灵魂拷问：

“你怎么知道你提出的这个方法前人都没有提出过呢？”

“你相比于之前的方法，创新点究竟在哪里？”

好吧，为了彻底杜绝这样的问题，开始学习使用谷歌学术。先来学习下关键词检索

在这里插入图片描述

哈哈哈哈区区50000篇文章。。。。。。

我特么翻到何年何月呀！🙄

于是滋生了Python写爬虫的想法。

基本原理如下：

使用scholarly库。下面是一份简单、分步骤的指南：

安装scholarly:
```
pip install scholarly
```

编写Python脚本：

from scholarly import scholarly

# 搜索关键词
搜索查询 = scholarly.search_pubs('你感兴趣的关键词')

# 检索前5个结果
for i in range(5):
    出版物 = next(搜索查询)
    标题 = 出版物['bib']['title']
    作者 = ', '.join(出版物['bib']['author'])
    摘要 = 出版物['bib'].get('abstract', '没有摘要可用')

    print(f"标题: {标题}")
    print(f"作者: {作者}")
    print(f"摘要: {摘要}\n")

运行脚本：
```
python 你的脚本.py
```

将'你感兴趣的关键词'替换为你实际感兴趣的关键词。脚本将打印前5个相关文献项目的标题、作者和摘要。

之后对代码进行了一些改进，包括

运行前，评估文献总数
增加合适的睡眠时长（防止请求太频繁被ban掉）
一边请求，一遍将数据写入本地文件中。防止被ban掉之后，数据全没了

目前一切正常

在这里插入图片描述

导入excel并进行分列，似乎效果还行
在这里插入图片描述

点赞👍+关注⭐+私信，免费获取代码

支持 👉 快速下载地址

http://www.dtcms.com/a/11111.html

相关文章：

【Python】在 Pandas 中使用 AdaBoost 进行分类

Dubbo3 服务原生支持 http 访问，兼具高性能与易用性

Java面试----MySQL面试题

【算法】Graham 凸包扫描算法 ( 凸包概念 | 常用的凸包算法 | 角排序 | 叉积 | Python 代码示例 )

正则表达式

第一章 - 第10节- 计算机网络 - 课件

Windows OpenVPN的安装之服务器自动启动连接

Java17 --- SpringSecurity之OAuth2

c、c#、c++嵌入式比较？

electron录制工具-视频保存、编辑页面

【Java04】引用变量数组初始化的内存机制

STL-常用容器

10.Docker Compose容器编排

学单片机前先学什么？

树莓派4B_OpenCv学习笔记10:调整视频帧大小

Ubuntu 22.04 解决 firefox 中文界面乱码

活动集锦 | 英码科技积极参与行业盛会，AI赋能城市数字化转型

Optional详解和常用API

对LitJson开源插件的自定义尝试

EasyExcel文件导出，出现有文件但没有数据的问题

揭开 Docker 容器的神秘面纱：深入理解容器原理

【网络安全】【深度学习】【入侵检测】SDN模拟网络入侵攻击并检测，实时检测，深度学习【二】

JVM常用概念之线程本地分配缓冲区（ThreadLocal Allocation Buffer，TLAB）

【双系统安装ADB】

Oracle中select取值后的字符串处理

跨服务器迁移 Redis 数据

Web前端开发12章：深入探索与实战解析

在不使用js在情况下只用css实现瀑布流效果

Java项目之消息队列（手写java模拟实现mq）【七、⽹络通信协议设计、消息队列服务器端实现、客户端实现】✔ ★

Oracle复习部分记录