当前位置：首页 > news >正文

爬虫获取1688关键字搜索接口的实战指南

news 2025/10/14 18:12:02

在当今电商行业竞争激烈的环境下，数据的重要性不言而喻。1688作为国内领先的B2B电商平台，拥有海量的商品信息，这些数据对于商家的市场分析、选品决策、价格策略制定等都有着重要的价值。本文将详细介绍如何通过爬虫技术获取1688关键字搜索接口的数据，助力商家和数据分析师更好地利用这些数据。

一、准备工作

（一）注册1688开放平台账号

在开始之前，你需要在1688开放平台注册一个开发者账号。登录后，创建一个新的应用，获取应用的App Key和App Secret，这些凭证将用于后续的API调用。

（二）安装必要的Python库

为了实现爬虫功能，需要安装以下Python库：

Requests：用于发送HTTP请求。
BeautifulSoup：用于解析HTML文档。
Pandas：用于数据处理和存储。

可以通过以下命令安装这些库：

bash复制

pip install requests beautifulsoup4 pandas

二、爬虫实现步骤

（一）分析1688网页结构

在编写爬虫之前，需要先了解1688网站的页面结构。通过查看网页的源代码，找到商品名称、价格、图片等信息所在的HTML标签。例如，商品信息可能存放在<div class="product-item">标签中，商品标题在<h3>标签中，价格在<span class="price">标签中。

（二）构建搜索URL

根据1688的搜索逻辑，可以通过关键字构建搜索URL。例如，搜索关键字为“电子产品”，搜索URL可以构建为：

Python

def build_search_url(keyword, page=1):
    base_url = "https://search.1688.com/?keywords={}&page={}"
    return base_url.format(keyword, page)

（三）发送请求并解析页面

使用requests库发送HTTP请求，并使用BeautifulSoup解析返回的HTML内容。以下是一个示例代码：

Python

import requests
from bs4 import BeautifulSoup

def get_products(keyword, page=1):
    url = build_search_url(keyword, page)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
    }
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    products = []
    for product in soup.find_all('div', class_='product-item'):
        title = product.find('h3').text.strip()
        price = product.find('span', class_='price').text.strip()
        products.append({'title': title, 'price': price})
    return products

（四）处理和存储数据

获取到的数据可以通过pandas库进行处理和存储。例如，将数据保存到CSV文件中：

Python

import pandas as pd

def save_to_csv(data, filename):
    df = pd.DataFrame(data)
    df.to_csv(filename, index=False, encoding='utf-8')

# 示例：保存搜索结果
keyword = "电子产品"
products = get_products(keyword)
save_to_csv(products, 'search_results.csv')

三、使用1688 API接口

除了通过爬虫技术获取数据外，1688还提供了丰富的API接口，可以直接通过API获取商品搜索数据。以下是使用API接口的步骤：

（一）注册与申请权限

在1688开放平台注册开发者账号，并创建应用以申请“商品搜索”权限。审核通过后，平台会提供App Key和App Secret，这是调用API接口的必要凭证。

（二）构建请求

根据API文档，构建包含必要参数的HTTP请求。常用的请求参数包括：

q：搜索关键字。
start_price 和 end_price：价格范围。
page：页码。
page_size：每页显示的商品数量。
sort：排序方式。

以下是一个示例代码：

Python

import requests
import hashlib
import time

def generate_sign(params, secret):
    params_sorted = sorted(params.items())
    sign_str = "&".join([f"{k}{v}" for k, v in params_sorted if k != "sign"])
    sign = hashlib.md5((sign_str + secret).encode('utf-8')).hexdigest().upper()
    return sign

def search_products_api(keyword, page=1, page_size=40):
    APP_KEY = "your_app_key"
    APP_SECRET = "your_app_secret"
    url = "https://api-gw.onebound.cn/1688/item_search"
    params = {
        'key': APP_KEY,
        'secret': APP_SECRET,
        'q': keyword,
        'start_price': 0,
        'end_price': 0,
        'page': page,
        'page_size': page_size,
        'sort': 'price',
        'timestamp': int(time.time())
    }
    params['sign'] = generate_sign(params, APP_SECRET)
    response = requests.get(url, params=params)
    if response.status_code == 200:
        return response.json()
    else:
        print(f"Request failed with status code: {response.status_code}")
        return None

（三）解析响应数据

接口返回的数据通常是JSON格式。可以使用pandas库进行解析和处理：

Python

import pandas as pd

data = search_products_api("电子产品")
products = data.get('products', [])
df = pd.DataFrame(products)
df.to_csv('search_results_api.csv', index=False, encoding='utf-8')