火车头/高铁采集器怎么使用，新手保姆级教程-淘源码网

最近在抓取一些比较有价值的网站资源，用于训练AI写作系统，保证AI能在我采集的庞大数据库中学会利用一个命题就可以创作高质量原创文章。对！我说的是原创文章，不是~~伪原创~~。至于这个AI写作的系统将会在我成功后与大家展开更为细致的分享，今天我们的主题是，如何通过火车头采集器批量采集网站文章。

一、准备

软件：火车头采集器/高铁采集器

使用环境：PC端

二、采集

1.获取列表页数据

进入待采集网站，打开需要采集的栏目或者待采集的关键词搜索列表。

确定这个栏目的文章页数，翻到底部发现总页数为15，确定采集页数为15。

跳转到下一页，确定网页的起始网址格式，变量基本是.html前面的序号，所以我们先直接复制下来。

进入高铁采集器，点击+按钮跳出任务设置页面。

点击网页采集规则页面的起始网页右边的第一个按钮进入向导，填入复制下来的页面地址，并将页面的变量替换成右边的地址参数，直接删掉原页码然后点击按钮插入就可以。

最终会自动生成一个采集列表文章的链接，但这只是采集页面数据，并没有将需要的内容精确地采集到。

因为需要让机器知道我们要采集哪些数据，所以我们要在网页代码中找到开头和结尾的标志，以便机器采集。

右击网页空白处查看网页源代码

由于源码大多是一行显示，所以我们需要勾选源码顶部的“换行”复选框。

Ctrl+F 搜索源代码中包含列表页的第一条数据的标题，并寻找与该标题临近的一个唯一标签。

<h1><span>产品运营</span></h1> </div> <div class="sec-panel-body">

在这段代码中，我选择了 “<divclass=”sec-panel-body”>” 作为识别开头的代码。

同样的方式，我搜寻列表页的最后一条数据的标题，找到了识别结尾的代码。

是否是唯一且能识别到的代码，我们也可以通过 Ctrl+F 去查找，只要搜索数据是唯一的就是了。

填入写好的起始和结束代码后，点击右下角的网页测试按钮测试采集数据是否正常。

让机器采集一部分列表页数据就可以停止了，然后看到采集的数据是比较多的，有些数据不是我们需要的数据页，所以我们需要将其排除。

查阅到内容页的地址为/n/(*).html，所以我们可以用网页格式去锁定采集地址。

在链接过滤处选择链接包含并填入刚才的格式

接下来发现内容页地址采集正常。

2.获取内容页数据

接下来我们就需要写内容页的采集规则，这里比较复杂，需要认真看。在最近的测试中，发现对于新手来说也并不是难事，因为逻辑一样的，多去调试就行了。

进入内容采集规则页面，内置有标题和内容，这里我多加两条数据“作者”和“日期”，以便大家更深理解。

我们在采集过程中可能需要更多的数据，基本上都可以按照我说的操作采集出来。

同样，在文章页面右击调出源代码，我按标题、作者、时间、内容的顺序教大家写采集规则。

首先，我们查找到文章标题的位置，确定位置在<h1>标签内，起始大部分的页面都是<h>标签，只是里面的样式不同而已。

<h1 class="entry-title">标题</h1>

接着直接看后面的代码，通过一些标志，看到作者和时间，这时候就确定了时间和地址。

<a class="nickname url fn j-user-card">作者</a> </span> <span class="dot">•</span> <time class="entry-date published" datetime="2022-10-31T08:17:06+08:00" pubdate> 2022年10月31日 08:17:06 </time>