案例分享:批量采集某网站的资源数据,并保存所有城通网盘资源到自己网盘并发布下载链接

以rejoice博客网站(http://www.rejoiceblog.com/)为例,讲解一下如何把一个网站的文章采集到自己的网站,同时做到下载链接网盘地址也是自己的(文件批量转存到自己网盘)。

其实采集和发布文章都很简单,难点就是如何将对方文件批量转存或下载到自己网站/网盘,且能够对应文章和网盘下载链接。

需要准备:

  1. rejoice博客网站的VIP账号
  2. 火车采集规则、发布模块
  3. 批量转存工具
  4. 城通网盘VIP账号(对方网站用的城通网盘存储文件,如果要转存,只能转存城通网盘,别的网盘没法直接转)

目前该站中文电子书全部文件大概有800G,不买个城通VIP下载这么多文件到本地是不现实的。我的城通VIP大概一千多元,靠下载量已经都赚回来了(一个下载点击2到5分钱,超过100M的文件1毛)。

看到这里,部分同学可以关掉网页走人了。

第一步:

转存所有文件到自己网盘,五万多个文件,手动当然不行了。所以写了个转存工具,可以批量转存城通文件并重命名。

那么问题来了,为什么要重命名?重命名是非常重要的一步,因为可以:

  1. 避免因为名称的问题被和谐造成下载链接失效
  2. 发布文章的时候可以关联到网盘文件下载链接

转存文件时要把文件重命名为目标网站文章的ID,例如http://www.rejoiceblog.com/article/96233.html 这篇文章里的电子书转存到自己网盘后文件要命名为96233.epub。为啥?看第二步。

33%

第二步:

批量转存文件并重命名以后,用火车来采集城通网盘所有文件的下载链接和文件名,生成html文件,html文件 以文件名命名。例如前面说的96233.epub,采集生成96233.html,文件内有这个文件的城通网盘下载链接。

你可以在自己网站文章里直接链接这个html,用户在html页面点击网盘链接下载文件,也可以在后面第三步里,使用采集规则里采集这个页面的网盘地址,用户则直接打开网盘页面进行下载;链接html的好处是可以展示广告位获取收入,看下方演示(顺便点一下广告有惊喜):

html文件演示:https://www.wsucai.com/www.bangongziyuan.com/excel/detail-28672.html

这种方式适合免费下载的资源,收费的话,当然还是直接采集到网盘地址,避免别人根据html文件名,获得其他文件下载地址。

66%

第三步:

现在已经有了全部网盘文件下载链接了,而且html文件名和目标站的文件名是对应的,那么只需要把生成的html上传到网站空间,就可以用火车采集器采集目标站的文章,文件下载地址则采集上传的html里的网盘地址。

100%

懂了吧?不懂拉倒。

以上所述城通文件转存、采集规则,可联系站长咨询购买,采集其他网站可询价。

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇