当前位置: 首页 > wzjs >正文

最新获取网站访客qq接口一级a做爰视频安全网站

最新获取网站访客qq接口,一级a做爰视频安全网站,网站开发 招聘,网站制作公司 沈阳爬虫不是一个小众的场景,所以无论是哪个语言,都有很多相应的生态库.这里介绍一下PHP的技术方案和代码量。 关键能力 对页面的解析能力 PHP的官方扩展中有Dom扩展,但是我建议使用electrolinux/phpquery这个库,他相当于一个PHP版的JQ. 算上加载文件,只要三行就能获取title标签…

爬虫不是一个小众的场景,所以无论是哪个语言,都有很多相应的生态库.这里介绍一下PHP的技术方案和代码量。

关键能力

对页面的解析能力

PHP的官方扩展中有Dom扩展,但是我建议使用electrolinux/phpquery这个库,他相当于一个PHP版的JQ.

算上加载文件,只要三行就能获取title标签内容.

<?php
include 'phpQuery-onefile.php';$file = 'test.html'; // 加载文件
phpQuery::newDocumentFileHTML($file);// 加载之后就可以使用JQ的操作方法去解析.$titleElement = pq('title'); // 也可以使用对象的操作方式
$title = $titleElement->html();

对数据库的操作能力

PHP对数据库的操作能力不是吹的,原生扩展中支持PDO,这里可以尝试ThinkPHP的think-orm.

简简单单一学就会.

use think\facade\Db;
// 数据库配置信息设置(全局有效)
Db::setConfig([// 默认数据连接标识'default'     => 'mysql',// 数据库连接信息'connections' => ['mysql' => [// 数据库类型'type'     => 'mysql',// 主机地址'hostname' => '127.0.0.1',// 用户名'username' => 'root',// 数据库名'database' => 'demo',// 数据库编码默认采用utf8'charset'  => 'utf8',// 数据库表前缀'prefix'   => 'think_',// 数据库调试模式'debug'    => true,],],
]);// 查询
Db::name('user')->where('id', 1)->find();
// 新增
$data = ['foo' => 'bar', 'bar' => 'foo'];
Db::name('user')->insert($data);
//更新
Db::name('user')->update(['id' => 1, 'name' => 'thinkphp']);
// 删除
Db::table('think_user')->where('id', 1)->delete();

爬虫效率

PHP对于性能的优化有很多很深的解决方案,包括使用协程等,这里只介绍最简单的的一种方式,使用guzzle这个库(他使用curl 的并行加载特性).

use GuzzleHttp\Client;
use GuzzleHttp\Promise;$client = new Client(['base_uri' => 'http://httpbin.org/']);// 发起不阻塞的请求
$promises = ['image' => $client->getAsync('/image'),'png'   => $client->getAsync('/image/png'),'jpeg'  => $client->getAsync('/image/jpeg'),'webp'  => $client->getAsync('/image/webp')
];// 等待所有请求完成
$responses = Promise\Utils::settle($promises)->wait();

代码量

如上面例子所示,代码量并不多,去掉配置文件,只有十几行代码,最关键的是我们需要的特性并没有削弱.

比如:

  • 极简的DOM解析
  • 健壮的SQL操作
  • 发起并行请求

解析JS

有时候我们要抓取的页面是依赖JS执行的,这是需要一个无头浏览器,此时介绍这样一个库,他能够很简单的完成对phantomjs的操作.

PHP PhantomJS 是一个灵活的 PHP 库,让PHP通过很简单的代码来操作 PhantomJS 无头浏览器加载页面。 让PHP加载的网页地址执行JS/页面截图/导出PDF.

他可以非常方便的实现这些功能:

  • 使用无头浏览器PhantomJS加载请求
  • 查看详细的响应数据,包括页面内容、标题、状态 代码等
  • 处理重定向
  • 查看JS控制台输出报错
  • 查看详细的PhantomJS调试信息
  • 保存页面的截图
  • 将页面导出为PDF
  • 设置浏览窗口大小
  • 为PDF导出设置页眉页脚
  • 指定截图位置x,y和宽高
  • 延迟页面渲染(等待页面加载完成)
  • 轻松构建和运行PhantomJS脚本

PHP PhantomJS 只要求 PHP 5.4.0 或以上即可。

基本用法

使用phantomjs发起一个请求非常简单:

<?phpuse JonnyW\PhantomJs\Client;$client = Client::getInstance();/*** @see JonnyW\PhantomJs\Http\Request**/$request = $client->getMessageFactory()->createRequest('http://phpreturn.com', 'GET');/*** @see JonnyW\PhantomJs\Http\Response**/$response = $client->getMessageFactory()->createResponse();// Send the request$client->send($request, $response);if($response->getStatus() === 200) {// Dump the requested page contentecho $response->getContent();}

使用PHP总是更舒服,更简单.

原文标题: PHP在做爬虫时的解决方案

原文地址: https://phpreturn.com/index/a62235bdfe4e70.html

原文平台: PHP武器库

版权声明: 本文由phpreturn.com(PHP武器库官网)原创和首发,所有权利归phpreturn(PHP武器库)所有,本站允许任何形式的转载/引用文章,但必须同时注明出处。

http://www.dtcms.com/wzjs/796992.html

相关文章:

  • 做app网站需要什么技术支持代哥seo
  • 建立单页网站网站设置密码
  • 北京平台网站建设多少钱asp.net网站管理系统
  • 免费自助制作永久网站深圳南山网站建设公司
  • 英迈思做网站做的怎样安娜尔返利机器人怎么做网站
  • 陕西省信用建设门户网站洛阳网站建设报价
  • 网站开发的著作权和版权产品线上推广渠道
  • 深圳专业营销网站成都有什么好玩的娱乐场所
  • 便宜网站建设成都计算机应用软件开发
  • d代码做网站网站建设主要由哪几个部分组成
  • 国土局网站建设情况软件的开发定制
  • 那些网站可以做问答电子商务系统网站设计
  • 网站反链和外链的区别免费网站你懂我意思正能量软件
  • sql数据库做的网站怎么发布广告商对接平台
  • 快速建站平台源码上海16个区排名
  • 珠海企业网站建设公wordpress ddos
  • 济南住建网站文安网站建设
  • 西宁市建设网站价格低网络营销网站平台有哪些
  • 网站自定义模块南阳定制网站制作价格低
  • 如何做高端网站建设提高wordpress打开速度
  • 网站建设的后如何发布钢笔工具网站
  • 全屏网站怎么做做网站是用什么技术的
  • 阿里巴巴做网站广州建网站价格
  • 平台网站建设报价小说网站怎么建设
  • 云盘做网站空间wordpress官网主题
  • 网站模板库免费传媒公司取名 创意
  • 博达网站建设教程佛山网站设计制作免费咨询
  • 四川网站设计企业门户网站服务器
  • 手机网站头部店铺起名网免费取名
  • 森马网站建设情况网站外包开发 代码的版权问题