·您现在的位置: 云翼网络 >> 文章中心 >> 网站建设 >> 网站建设开发 >> php网站开发 >> PHP 用QueryList抓取网页内容

PHP 用QueryList抓取网页内容

作者:佚名      php网站开发编辑:admin      更新时间:2022-07-23
php 用QueryList抓取网页内容

之前抓取网页数据都是用java Jsoup,前几天听说用PHP抓更方便,今天就简单研究了一下,主要是用QueryList来实现.

QueryList是一个基于phpQuery的通用列表采集类,是一个简单、 灵活、强大的采集工具,采集任何复杂的页面 基本上就一句话就能搞定了.

直接拿博客园举例子了,http://www.cnblogs.com/我们用QueryList来抓取红框里面的内容

查看网页源代码找到红框的位置

  1 <div id="post_list">            2       3 <div class="post_item">  4 <div class="digg">  5     <div class="diggit" onclick="DiggPost('jr1993',4716308,222703,1)">   6     <span class="diggnum" id="digg_count_4716308">0</span>  7     </div>  8     <div class="clear"></div>  9     <div id="digg_tip_4716308" class="digg_tip"></div> 10 </div>       11 <div class="post_item_body"> 12     <h3><a class="titlelnk" href="http://www.cnblogs.com/jr1993/p/4716308.html" target="_blank">简单的jQuery 四级分类实用插件</a></h3>                    13     <p class="post_item_summary"> 14 <a href="http://www.cnblogs.com/jr1993/" target="_blank"><img width="48" height="48" class="pfs" src="http://pic.cnblogs.com/face/694143/20141118194530.png" alt=""></a>    前言最近因需要自己封装了一个很简单的四级分类的jQuery插件,主要用于后台数据的传输和获取。接下来就分享一下这个实用的插件吧。正文老规矩,先看一下效果,这个就很丑了,没有美化的,因为主要还是用于后台界面使用的,同时请忽略测试数据的内容:那么下面就介绍一下使用方式:首先html代码: ...  15     </p>               16     <div class="post_item_foot">                     17     <a href="http://www.cnblogs.com/jr1993/" class="lightblue">郭锦荣</a>  18     发布于 2015-08-09 20:40  19     <span class="article_comment"><a href="http://www.cnblogs.com/jr1993/p/4716308.html#commentform" title="" class="gray"> 20         评论(0)</a></span><span class="article_view"><a href="http://www.cnblogs.com/jr1993/p/4716308.html" class="gray">阅读(21)</a></span></div> 21 </div> 22 <div class="clear"></div> 23 </div> 24 <div class="post_item"> 25 <div class="digg"> 26     <div class="diggit" onclick="DiggPost('maybe2030',4715035,229915,1)">  27     <span class="diggnum" id="digg_count_4715035">0</span> 28     </div> 29     <div class="clear"></div> 30     <div id="digg_tip_4715035" class="digg_tip"></div> 31 </div>       32 <div class="post_item_body"> 33     <h3><a class="titlelnk" href="http://www.cnblogs.com/maybe2030/p/4715035.html" target="_blank">[Data Structure &amp; Algorithm] 七大查找算法</a></h3>                    34     <p class="post_item_summary"> 35 <a href="http://www.cnblogs.com/maybe2030/" target="_blank"><img width="48" height="48" class="pfs" src="http://pic.cnblogs.com/face/764050/20150531155648.png" alt=""></a>    和排序算法一样,查找算法也是一种最为基本的算法。高效地查找可以使我们对数据进行更加高效地操作,熟练掌握各种查找算法也是一项基本的算法技能。  36     </p>               37     <div class="post_item_foot">                     38     <a href="http://www.cnblogs.com/maybe2030/" class="lightblue">Poll的笔记</a>  39     发布于 2015-08-09 20:27  40     <span class="article_comment"><a href="http://www.cnblogs.com/maybe2030/p/4715035.html#commentform" title="" class="gray"> 41         评论(0)</a></span><span class="article_view"><a href="http://www.cnblogs.com/maybe2030/p/4715035.html" class="gray">阅读(12)</a></span></div> 42 </div> 43 <div class="clear"></div> 44 </div> 45 <div class="post_item"> 46 <div class="digg"> 47     <div class="diggit" onclick="DiggPost('zhanggui',4716267,191738,1)">  48     <span class="diggnum" id="digg_count_4716267">0</span> 49     </div> 50     <div class="clear"></div> 51     <div id="digg_tip_4716267" class="digg_tip"></div> 52 </div>       53 <div class="post_item_body"> 54     <h3><a class="titlelnk" href="http://www.cnblogs.com/zhanggui/p/4716267.html" target="_blank">第二章、进程的描述与控制</a></h3>                    55     <p class="post_item_summary"> 56 <a href="http://www.cnblogs.com/zhanggui/" target="_blank"><img width="48" height="48" class="pfs" src="http://pic.cnblogs.com/face/527522/20140908182900.png" alt=""></a>    第二章、进程的描述与控制====##2.1 前趋图和程序执行### 2.1.1 前趋图####概念:所谓前趋图:指一个有向无循环图(DAG),它用于描述进程之间执行的先后顺序。###2.1.2 程序顺序执行####特征:* 顺序性* 封闭性:指程序在封闭的环境中运行,程序运行时独占全机资源,资源的状...  57     </p>               58     <div class="post_item_foot">                     59     <a href="http://www.cnblogs.com/zhanggui/" class="lightblue">Scottzg</a>  60     发布于 2015-08-09 20:24  61     <span class="article_comment"><a href="http://www.cnblogs.com/zhanggui/p/4716267.html#commentform" title="" class="gray"> 62         评论(0)</a></span><span class="article_view"><a href="http://www.cnblogs.com/zhanggui/p/4716267.html" class="gray">阅读(17)</a></span></div> 63 </div> 64 <div class="clear"></div> 65 </div> 66 <div class="post_item"> 67 <div class="digg"> 68     <div class="diggit" onclick="DiggPost('lubiao',4716200,158099,1)">  69     <span class="diggnum" id="digg_count_4716200">0</span> 70     </div> 71     <div class="clear"></div> 72     <div id="digg_tip_4716200" class="digg_tip"></div> 73 </div>       74 <div class="post_item_body"> 75     <h3><a class="titlelnk" href="http://www.cnblogs.com/lubiao/p/4716200.html" target="_blank">树莓派入门笔记</a></h3>                    76     <p class="post_item_summary"> 77 <a href="http://www.cnblogs.com/lubiao/" target="_blank"><img width="48" height="48" class="pfs" src="http://pic.cnblogs.com/face/550600/20150808222928.png" alt=""></a>    一、关于开源硬件开源硬件的概念简单理解就是电子硬件的设计详细参数是公开的,比如电路图、材料清单和PCB布局等等。主要类型:Arduino、CubieBoard、RaspberryPi、PcDuino、BeagleBone、KiWIBoard和Mixteil开源中国社区-开源硬件专区http://ww...  78     </p>               79     <div class="post_item_foot">                     80     <a href="http://www.cnblogs.com/lubiao/" class="lightblue">clbiao</a>  81     发布于 2015-08-09 20:05  82     <span class="article_comment"><a href="http://www.cnblogs.com/lubiao/p/4716200.html#commentform" title="" class="gray"> 83         评论(0)</a></span><span class="article_view"><a href="http://www.cnblogs.com/lubiao/p/4716200.html" class="gray">阅读(59)</a></span></div> 84 </div> 85 <div class="clear"></div> 86 </div> 87 <div class="post_item"> 88 <div class="digg"> 89     <div class="diggit" onclick="DiggPost('xiaoheimiaoer',4716191,124701,1)">  90     <span class="diggnum" id="digg_count_4716191">0</span> 91     </div> 92     <div class="clear"></div> 93     <div id="digg_tip_4716191" class="digg_tip"></div> 94 </div>       95 <div class="post_item_body"> 96     <h3><a class="titlelnk" href="http://www.cnblogs.com/xiaoheimiaoer/p/4716191.html" target="_blank">JS监听组合按键</a></h3>                    97     <p class="post_item_summary"> 98 <a href="http://www.cnblogs.com/xiaoheimiaoer/" target="_blank"><img width="48" height="48" class="pfs" src="http://pic.cnblogs.com/face/435330/20140328110126.png" alt=""></a>    有些时候,我们需要在网页上,增加一些快捷按键,方便用户使用一些常用的操作,比如:保存,撤销,复制、粘贴等等。 下面简单梳理一下思路: 我们所熟悉的按键有这么集中类型:单独的按键操作,如:delete、up、down等两位组合建,如:ctrl(cmd)+ 其他按键,alt+其他按键,shift...  99     </p>