当前位置：首页 > news >正文

利用 PHP 爬虫获取店铺所有商品实战指南

news 2025/8/21 11:16:01

在电商领域，获取店铺的所有商品信息对于市场分析、竞品研究和商业决策具有极高的价值。PHP 爬虫技术可以帮助我们高效地完成这一任务。本文将详细介绍如何利用 PHP 编写爬虫，获取特定店铺的所有商品信息，并提供完整的代码示例。

一、准备工作

（一）PHP 开发环境

确保你的服务器或本地开发环境支持 PHP 运行，并已安装以下扩展：

cURL：用于发送 HTTP 请求。
DOMDocument 和 DOMXPath：用于解析 HTML 文档。

可以通过以下命令检查是否已安装这些扩展：

bash

php -m

（二）安装必要的库

安装 GuzzleHttp 库，用于发送 HTTP 请求。可以通过 Composer 安装：

bash

composer require guzzlehttp/guzzle

二、编写爬虫代码

（一）发送 HTTP 请求

使用 GuzzleHttp 库发送 GET 请求，获取店铺页面的 HTML 内容。

php

<?php
require 'vendor/autoload.php';use GuzzleHttp\Client;function fetchPageContent($url) {$client = new Client();$response = $client->request('GET', $url, ['headers' => ['User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3']]);return $response->getBody()->getContents();
}
?>

（二）解析 HTML 内容

使用 PHP 的 DOM 和 XPath 库解析 HTML，提取商品信息。

php

<?php
function parseProducts($htmlContent) {$doc = new DOMDocument();@$doc->loadHTML($htmlContent); // Suppress warnings$xpath = new DOMXPath($doc);$products = [];$results = $xpath->query('//div[@data-component-type="s-search-result"]');foreach ($results as $product) {$title = $xpath->query('.//span[@class="a-size-medium a-color-base a-text-normal"]', $product)->item(0)->textContent;$link = $xpath->query('.//a[@class="a-link-normal"]', $product)->item(0)->getAttribute('href');$price = $xpath->query('.//span[@class="a-price-whole"]', $product)->item(0)->textContent;$products[] = ['title' => $title,'link' => $link,'price' => $price];}return $products;
}
?>

（三）完整流程

将上述步骤整合，实现完整的爬虫流程。

php

<?php
function amazonCrawler($shopUrl) {$htmlContent = fetchPageContent($shopUrl);return parseProducts($htmlContent);
}// 示例：获取店铺商品
$shopUrl = "https://www.amazon.com/s?k=python+books";
$products = amazonCrawler($shopUrl);foreach ($products as $product) {echo "Title: " . $product['title'] . "\n";echo "Link: " . $product['link'] . "\n";echo "Price: " . $product['price'] . "\n";echo "-------------------\n";
}
?>