当前位置：首页 > news >正文

python爬虫学习第十一篇爬取指定类型数据

news 2025/10/17 4:33:52

最近在学习Python爬虫的过程中，尝试用爬虫获取指定类型的数据。今天，我想和大家分享一下我的实践过程和遇到的问题。

一、实现目标

目标是从一个网站的API接口获取不同类型的食品数据。

比如，第一步我想获取汉堡、小食、甜品等不同类型的数据，

第二步根据用户输入的选择返回相应的结果。

二、代码实现

首先，我用到了requests库来发送HTTP请求。我定义了一个字典types，用来保存所有产品的关键字，这些关键字对应API接口需要的参数。然后，我通过用户输入选择对应的类型，并发送POST请求获取数据。

以下是代码示例：

第一步获取所有数据

import requests
url = 'https://example.com/api/data'
# 使用列表保存所有产品的关键字 请求参数
types = ['season', 'ham','snack', 'dessert', 'breakfirst','meats', 'coffee', 'happy_meal']
# 循环列表，每循环一次，发起一个请求
for type in types:
    data = {
    'type': type
    }
    res = requests.post(url, data=data)
    res_data = res.json()
        for k, v in res_data.items(): # 因为键会变化，所以不能够直接写死，要通过循环获取当前响应中的键
            print('当前类型:----', k)
            if v!= None:
                for i in v:
                    print(i['FName'])
                else:
                    print('没有内容')

在这里的时候我遇到了报错，他提示有数据为空，然后我当时的处理方式是同try，except形式去处理 except就直接break了，

try：
    for i in v:
    print(i['FName'])
except：
    break

这里是上篇博客处理报错的方式，报错就直接退出，但是这里这么写会导致获取中断后面的信息就不获取了，把break改成print（“没有内容”），这样就可以了。

上面代码写的是使用判断语句去处理报错，因为如果他网页内容输出不是none而是一个空【】那么网页是不会报错的，他还会循环下去，这时候就需要用判断条件去处理列表为空的情况了

第二步

import requests

# 目标URL
url = 'https://example.com/api/data'#示例代码

# 使用字典保存所有产品的关键字请求参数
types = {
    '季节新品': 'season',
    '汉堡': 'ham',
    '小食': 'snack',
    '甜品': 'dessert',
    '早餐': 'breakfast',
    '饮料': 'meats',  # 注意：这里可能是参数错误，饮料应该是 'drink'
    '咖啡': 'coffee',
    '儿童餐': 'happy_meal',
}

# 结合用户输入选择对应的类型
name = input(f"请输入你要获取的菜单：{','.join(list(types.keys()))} ")

# 判断当前用户输入的内容是否属于菜单的一种
if name in types:
    # 从字典中取出关键字
    data = {
        'type': types[name]
    }
    # 发起POST请求
    res = requests.post(url, data=data)
    res_data = res.json()

    # 解析数据：注意键不同，不能直接写死
    for k, v in res_data.items():
        print('当前类型:----', k)
        if v is not None:  # 如果v不为None，执行for循环
            for i in v:
                print(i['FName'])
        else:
            print('没有内容')
else:
    print('没有这个选择')