一、一些基本说明
- 开放API接口文档:https://info.arxiv.org/help/api/user-manual.html#2-api-quickstart
- 研究领域分类说明文档:https://arxiv.org/category_taxonomy
二、基于url接口方式检索并获取数据
prefix | explanation |
---|
ti | Title |
au | Author |
abs | Abstract |
co | Comment |
jr | Journal Reference |
cat | Subject Category |
rn | Report Number |
id | Id (use id_list instead) |
all | All of the above |
- 返回的字段包括:
- id(对应文章的arxiv网址)
- Updated(更新时间)
- Published(发表时间)
- title(篇名)
- summar(摘要)
- author(所有作者,其中的机构信息不是很明显)
- 返回的格式为html,示例如下:

- python代码示例
import urllib.request as libreq
import time
import arxivdef get_arxiv_ulrlib():'''使用arxiv接口url获取,返回结果是htm'''start = time.time()with libreq.urlopen('http://export.arxiv.org/api/query?search_query=all:electron&start=0&max_results=100') as url:r = url.read()end = time.time()print(r)print('用时:', end - start)
三、基于python中arxiv模块的方式检索并获取数据
- 返回的结果字段包括:
- entry_id、
- updated、
- published、
- title、
- authors、
- summary、
- comment、
- journal_ref、
- doi、
- primary_category(主要研究领域)
- categories(研究领域分类,如[‘quant-ph’, ‘math-ph’, ‘math.MP’],其中math-ph,为数学和物理交叉领域)
- python代码示例如下:
def get_arxiv_arxiv():'''使用arxiv模块获取'''client = arxiv.Client()search = arxiv.Search(query="quantum",max_results=10,sort_by=arxiv.SortCriterion.SubmittedDate)results = client.results(search)for r in list(results):print(r.authors)
- result是一个生成器对象,对result转化为列表【list(result)】后,结果如下:
