Python 常用库速查手册
一句话宗旨:Python 之所以被称为“胶水语言”,就是因为它能把各领域的库粘在一起干活。本手册分类介绍常用库、功能简述、核心 API 以及最小可用代码,让你在写代码时一查就能用。
适用人群:爬虫工程师、数据分析师、AI 工程师、自动化运维、科研人员、Python 开发者。
1. 网络请求与爬虫类
1.1 requests
— 人类友好的 HTTP 客户端
import requests# GET 请求
r = requests.get("https://httpbin.org/get", params={"q": "python"})
print(r.status_code, r.json())# POST 请求
r = requests.post("https://httpbin.org/post", data={"name": "Tom"})
print(r.text)# 带会话(保持 Cookie)
s = requests.Session()
s.get("https://example.com/login")
简单直观、支持 SSL、代理、Cookie、文件上传、会话保持。
1.2 aiohttp
— 异步 HTTP 请求
import aiohttp, asyncioasync def fetch(url):async with aiohttp.ClientSession() as s:async with s.get(url) as resp:return await resp.text()asyncio.run(fetch("https://httpbin.org/get"))
高并发请求,爬虫性能提升 10 倍。
1.3 httpx
— 现代化异步 HTTP 客户端
import httpx
with httpx.Client() as client:r = client.get("https://httpbin.org/get")print(r.json())
支持 HTTP/1.1、HTTP/2,兼容同步 + 异步,requests 升级替代品。
1.4 beautifulsoup4
— HTML 解析神器
from bs4 import BeautifulSoup
html = "<div><p>Hello <b>Python</b></p></div>"
soup = BeautifulSoup(html, "html.parser")
print(soup.find("b").text)
API 直观,支持 HTML、XML,多解析器。
1.5 lxml
— XPath 提取
from lxml import etree
html = "<div><p>Hello <b>Python</b></p></div>"
tree = etree.HTML(html)
print(tree.xpath("//b/text()"))
解析速度快,XPath 灵活,适合复杂页面。
1.6 selenium
— 浏览器自动化
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://www.python.org")
print(driver.title)
driver.quit()
支持 Chrome/Firefox 等真实浏览器,处理 JS 渲染页面。
1.7 playwright
— 新一代浏览器自动化
from playwright.sync