当前位置: 首页 > wzjs >正文

莱芜网站优化招聘网百度统计app

莱芜网站优化招聘网,百度统计app,广州企立科技做网站,灰色推广爬虫怎么写prompt 以下基于deepseek r1 总结: 以下是为大模型设计的结构化Prompt模板,用于生成专业级网络爬虫Python脚本。此Prompt包含技术约束、反检测策略和数据处理要求,可根据具体需求调整参数: 爬虫脚本生成Prompt模板1 …

爬虫怎么写prompt

以下基于deepseek r1 总结:

以下是为大模型设计的结构化Prompt模板,用于生成专业级网络爬虫Python脚本。此Prompt包含技术约束、反检测策略和数据处理要求,可根据具体需求调整参数:

爬虫脚本生成Prompt模板1

请按照以下要求生成一个Python网络爬虫脚本:

1. 目标网站信息

  • 网站URL:[在此填写具体网址,如https://example.com/products]
  • 目标数据:[明确描述需要爬取的数据,如商品名称/价格/评论等]
  • 页面类型:[静态HTML/动态渲染/API接口/分页列表/详情页等]

2. 技术要求

# 必选技术栈
from selenium.webdriver import ChromeOptions
from bs4 import BeautifulSoup
import pandas as pd
import requests

3. 反检测要求

  • 实现随机User-Agent轮换
  • 设置合理请求间隔(2-5秒)
  • 处理Cloudflare等反爬机制
  • 使用IP代理池(如需)

3. 数据存储规范

输出格式:JSON/CSV/Excel(选择一种)

字段清洗要求:[如去除HTML标签/统一货币格式等]

去重机制:[基于URL/ID/时间戳等]

5. 异常处理

HTTP错误码处理(403/404/500等)

超时重试机制(最多3次)

反爬触发时的自动规避策略

6. 性能优化

并发请求数限制
缓存已爬取URL
增量爬取支持

7. 输出示例

// 展示期望的数据结构样例
{"product_id": "123","name": "智能手机","price": {"original": 5999, "discount": 5499},"rating": 4.5
}

8. 特殊要求

[是否需要登录/验证码处理]
[是否处理JavaScript渲染内容]
[是否有地理限制]

请生成完整可运行的Python代码,包含:

反爬绕过实现
数据解析逻辑
存储模块
日志记录系统
进度监控功能


爬虫脚本生成Prompt模板2(供参考)

  1. 技术栈明确化
    要求使用:

    • requests-html 处理动态渲染
    • Scrapy-Redis 实现分布式爬取
    • PyQuery 代替XPath解析
  2. 反爬策略强化
    需要实现:

    • 鼠标移动轨迹模拟
    • 指纹浏览器配置
    • TLS指纹混淆
  3. 数据合规性要求
    遵守:

    • robots.txt规则
    • 欧盟GDPR数据保护
    • 目标网站ToS条款
  4. 性能指标量化
    控制:

    • 请求频率 ≤ 10次/分钟
    • 内存占用 < 500MB
    • 断点续爬功能

示例输出(简版爬虫)

根据上述Prompt,大模型可能生成的代码框架:

import requests
from fake_useragent import UserAgent
import time
import json
from bs4 import BeautifulSoupclass ProfessionalCrawler:def __init__(self):self.session = requests.Session()self.ua = UserAgent()self.proxies = {"http": "socks5://127.0.0.1:1080"}def get_random_headers(self):return {'User-Agent': self.ua.random,'Accept-Language': 'en-US,en;q=0.9','Referer': 'https://www.google.com/'}def scrape(self, url):try:resp = self.session.get(url,headers=self.get_random_headers(),proxies=self.proxies,timeout=10)resp.raise_for_status()# 使用BS4解析soup = BeautifulSoup(resp.text, 'lxml')data = {'title': soup.find('h1').get_text().strip(),'price': float(soup.select('.price')[0].text.replace('$', ''))}# 智能延迟time.sleep(max(2, min(5, len(resp.text)/5000)))return dataexcept Exception as e:print(f"爬取失败: {str(e)}")return Noneif __name__ == '__main__':crawler = ProfessionalCrawler()result = crawler.scrape("https://example.com/product/123")with open('output.json', 'w') as f:json.dump(result, f, indent=2)

Prompt优化建议

  1. 增加约束条件

  2. 补充要求:

    • 代码必须通过Pylint检测
    • 支持Docker容器化部署
    • 包含单元测试模块
  3. 指定架构模式
    要求采用:

    • 生产者-消费者模式处理队列
    • 状态机管理爬取流程
    • 支持Prometheus监控
  4. 法律声明
    必须包含:

    • 版权声明注释
    • 使用条款确认
    • 数据删除接口
http://www.dtcms.com/wzjs/87211.html

相关文章:

  • 苹果手机怎么做微电影网站今日头条热点新闻
  • 网站设计专业有前途吗端点seo博客
  • 两学一做测试网站新网seo关键词优化教程
  • 上海网站制作与推广seo的中文意思是什么
  • 网站建设宣传广告如何推广seo
  • 网站委托建设合同哪里有竞价推广托管
  • wordpress网站特效线上推广策划方案范文
  • 什么网站可以做问卷调查深圳seo优化外包
  • 咋制作网站seo文章是什么意思
  • 个人做网站设计什么软件可以发帖子做推广
  • 信誉好的镇江网站建设韩国比分预测
  • ru后缀的网站seo推广怎么入门
  • 全屏wordpressseo工资一般多少
  • 优质视频素材网站网站首页布局设计模板
  • 如何建立游戏网站平台今日重大新闻头条
  • 宿州做企业网站公司seo网络营销技巧
  • 南通公司快速建站搜索引擎优化是什么意思啊
  • 福田网站制作哪家好公司地址怎么弄在百度上显示
  • vi设计方案模板seo建站工具
  • 深圳专业做网站公司百度小说排行榜前十
  • 珠海自助建站软件地推接单平台网
  • 合肥网站建设司图谷歌优化的网络公司
  • 搭建网站服务器多少钱免费刷粉网站推广
  • 贵阳手机银行appseo职业规划
  • 怎么给网站做反链正规职业技能培训机构
  • 日照住房和城乡建设局网站百度搜索推广技巧
  • 做网站哪里便宜怎么在百度上注册店铺
  • 网站开发php岗位职责电脑全自动挂机赚钱
  • 物联网平台建设方案seo技术专员招聘
  • WordPress担保系统seo关键词排名优化如何