首 页
产品介绍
使用帮助
软件下载
软件购买
技术论坛
站长快车使用帮助
软件窗体界面 安装,升级与卸载 规则采集任务设置1 规则采集任务设置2 智能采集任务设置 会员注册任务设置
内容发布任务设置 批量复贴任务设置 会员注册模块制作 会员登录模块制作 内容发布模块制作 使用许可协议
站长快车规则采集任务设置(一)

第一步:新建采集任务

  点击选取规则采集——>点新建——>为新建任务指定一个名称。双击任务名称打开属性设置窗口。

第二步:添加采集目标网站的列表(栏目)页面地址


下面以采集(东方网>财经频道>财经要闻)为实例来讲解
添加列表页面网址有两种选择,第一种:列表页面比较少和没有规律时可使用单条网址来添加。
输入列表页面网址——>添加——>确认完成 

第二种:列表页面有一定规律时可使用批量来添加。

第三步:编辑提取内容页面网址设置

添加好列表页面网址之后选择其中一条网址,直接点击右侧提取内容页链接网址右边的测试 此时将会自动获取到该列表页面中的所有连接地址。如下图

此时得到的全部连接地址除了新闻内容页连接的连接地址外还有其它不相关的连接地址,所以接下来我们还要进一步来过滤和筛选,最后只留下我们所需要的内容页连接的地址。首先我们先来在浏览器上打开列表页面:http://finance.eastday.com/cjyw/index4.html

在列表页面中点击右键——>查看源文件:


通过查看源码我们可以发现每条新闻的连接地址都有一个特征,就是都带有 /u1a数字.html ,有了这共同点,我们就可以通过筛选功能来完成内容页地址的提取。在提取网址必须包含中输入: /u1a , 点击测试就会得到筛选后的内容。

因为有些网站的内容页面并不是都会有相同的特点,又或者在相同点之中还存在有其它你不需要采集的内容页连接,这个时候我们可以通过下面其他几个条件来再次精确筛选。
为了更加直观地查看源文件,我们把源码复制到网页制作工具Dreamweaver 中来,在Dreamweaver 的上部代码中我们可以非常直观地看到列表页部分中代码:


我们可以看到,列表内容前边是<div id="left" class="fl">这个代码,我们在Dreamweaver中按Ctrl+F查找一下,这是唯一的,可以使用,然后找列表内容后边结束有个这个代码<div class="fy hui12a">这个也是唯一的。这样,我们以这两个代码为开头和结尾在列表页裁取网址区域与此正则中输入:<ul class="xwlist3">[adminkc]<div class="fy hui12a">,其中 [adminkc]代表需要裁取的区域代码,点击右边的测试。就可以裁取到只留下内容页网址区域的代码了。(如果留空时直接点测试得到的是该页面的全部代码)
裁取到列表页网址区域的代码后点击下面的 提取内容页连接网址正则右边的 测试,即可提取到该区域内的全部连接:


通过上面这两种方法我们基本上可以采集到多数网站列表页中的网址了,但也会遇到一些比较复杂和没规则的列表页。此时我们可以再通过输入提取内容页链接网址的正则表达式和自定义组合来做为条件进行更加精确的筛选。在此就不再举例说明。

下一节:内容页面的采集