首 页
产品介绍
使用帮助
软件下载
软件购买
技术论坛
站长快车使用帮助
软件窗体界面 安装,升级与卸载 规则采集任务设置1 规则采集任务设置2 智能采集任务设置 会员注册任务设置
内容发布任务设置 批量复贴任务设置 会员注册模块制作 会员登录模块制作 内容发布模块制作 使用许可协议
站长快车规则采集任务设置(二)

通过上一节的设置,我们已经完成了对列表页中内容连接地址的采集,接下来在这一节中我们来学习如何采集内容页面的相关信息。

随意点击上面提取到的其中一条内容页面地址,软件会自动转到内容页信息采集设置中,并且自动获取到该内容页面的源码。

在此例的内容页中我们需要采集的信息内容是:标题 时间 来源 作者 内容 共五项,为了更直观地对代码进行查看和分析,我们把获取到的内容页源码复制后粘贴到Dreamweaver中来查看:

首先,我们来添加采集标题 的标签:

点击:打开添加内容采集标签的设置窗口:

通过在Dreamweaver中分析网页代码,我们发现内容标题部分的代码为:<title>艺术点亮生活 东方艺术中心推“会员活动日”</title>
这里我们可以选"<title>" 为开始特征码,"</title>"为结束特征码,然后使用<title>[adminkc]</title> 为正则表达式,则可获得标题。

为了确保我们所输入的采集正则能正确采集到信息内容,可以先点击 测试本标签按钮来调试该标签是否正确:
此窗口是一个非常实用的测试工具,你每添加一个标签之前可以先在这里测试正常之后再开始添加。在添加标签过程中也可以点击右下角的 测试本标签按钮来到这里测试,然后点击显示添加标签窗口来返回标签设置中。同时这时可以当成是非常方便的正则表达式练习器来使用。完成标题标签设置后点击来保存该标签。

接下来我们来编辑采集时间的规则:

通过在Dreamweaver中分析网页代码,我们发现时间部分的代码为:<h2>2009年9月4日 13:09</h2>,这里我们可以选"<h2>" 为开始特征码,"</h2>"为结束特征码,然后使用<h2>[adminkc]</h2> 为正则表达式,则可获得时间。

来源 的采集规则

作者 的采集规则

内容 的采集规则

在内容采集中,如果采集的结果里包含有你不需要的代码如广告类等,你可以通过内添加内容替换来把这些代码过滤掉,如:

添加完成全部标签规则后点击测试按钮,查看是否能正确采集。

为了确保该规则符合其他内容面,请在网址栏中输入随便一条内容页来再次测试:

完成全部标签添加设置后点击最上面的按钮,保存采集任务并返回到程序主界面,点即可开始采集内容。