当前位置：首页 > news >正文

利用 Python 爬虫获取淘宝商品评论实战指南

news 2025/8/22 11:44:34

在电商领域，淘宝商品评论数据是商家优化产品、提升用户体验以及进行市场分析的关键资源。本文将详细介绍如何利用 Python 爬虫技术获取淘宝商品评论，并提供完整的开发指南和代码示例。

一、准备工作

（一）开发环境

确保你的开发环境中已经安装了 Python，并且启用了以下库：

requests：用于发送 HTTP 请求。
BeautifulSoup：用于解析 HTML 数据。
pandas：用于数据处理和存储。

可以通过以下命令安装这些库：

bash

pip install requests beautifulsoup4 pandas

（二）安装必要的库

安装以下库，用于发送 HTTP 请求和解析 HTML 数据：

bash

pip install requests beautifulsoup4 pandas

二、编写爬虫代码

（一）发送 HTTP 请求

使用 requests 库发送 GET 请求，获取商品评论页面的 HTML 内容。

Python

import requestsdef get_html(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}response = requests.get(url, headers=headers)if response.status_code == 200:return response.textelse:print("Failed to retrieve the page")return None

（二）解析 HTML 内容

使用 BeautifulSoup 解析 HTML 内容，提取评论数据。

Python

from bs4 import BeautifulSoupdef parse_html(html):soup = BeautifulSoup(html, 'lxml')comments = []comment_items = soup.find_all('div', class_='comment-item')for item in comment_items:content = item.find('p', class_='comment-content').text.strip()comments.append(content)return comments

（三）按关键字搜索商品评论

根据商品 ID 构建评论请求 URL，并获取评论数据。

Python

def fetch_comments(item_id, page=1):url = f"https://rate.taobao.com/feedRateList.htm?auctionNumId={item_id}&currentPageNum={page}"html = get_html(url)if html:return parse_html(html)return []

（四）整合代码

将上述功能整合到主程序中，实现完整的爬虫程序。

Python

import pandas as pddef main():item_id = "12345678"  # 替换为实际的商品 IDmax_pages = 3all_comments = []for page in range(1, max_pages + 1):comments = fetch_comments(item_id, page)all_comments.extend(comments)print(f"Page {page} comments fetched.")# 打印所有评论for comment in all_comments:print(comment)# 保存到 CSV 文件df = pd.DataFrame(all_comments, columns=['comments'])df.to_csv('taobao_comments.csv', index=False, encoding='utf-8')print("评论数据已保存到 taobao_comments.csv 文件中")if __name__ == "__main__":main()