eqblog 发表于 2018-5-4 13:34:20

redtube爬虫发布~~~~~~~~~~~~~~~~~~~~~~~~~~~~

static/image/smiley/yct/022.gif
标题一定要长





static/image/filetype/zip.gif

spider.zip
(1.63 KB, 下载次数: 246)

2018-5-4 13:33 上传
点击文件名下载附件





默认爬取720P的清晰度,如果需要更低清晰度请修改代码87行。

爬取的页面是https://www.redtube.com/mostviewed

左手写爱 发表于 2018-5-4 14:28:47

权限1其实是游客也可见的。。。

全球资源提供商 发表于 2018-5-4 13:35:46

本帖最后由 全球资源提供商 于 2018-5-4 15:19 编辑

没什么卵用

我会告诉你我有超100T的资源
光tumblr就有20w

Update #0
分享不现实, 文件太多太大, 而且流量很贵

Update #1
看来你们对汤不热很有兴趣, 我给个逻辑
首先 你要维护一个用户列表, 就是更新资源的用户
然后循环这个列表去采集 就好了, 注意维护一个URL队列 去重用途

我是用的官方API来采集
逻辑这样

内容服务器
#1 采集
判断用户内容数量 如果和上次采集的数量一样
如果多 则代表有更新 采集 自动去重
标记为未下载

存储服务器
#2 下载
读取队列 查询未下载的
下载文件和图片 存储本地

#3 效验
我用的最简单的方法 判断文件是不是存在,且文件大小大于0
这样就好了




eqblog 发表于 2018-5-6 03:03:00


全球资源提供商 发表于 2018-5-4 13:35

没什么卵用

我会告诉你我有超100T的资源

static/image/smiley/yct/022.gif
有用就不会发布了 呵呵

yongs 发表于 2018-5-4 13:38:00


yongs 发表于 2018-5-4 13:40

求gd分享。
tongqiu

木易酱 发表于 2018-5-4 13:36:21


全球资源提供商 发表于 2018-5-4 13:35

没什么卵用

我会告诉你我有超100T的资源
赶紧的,分享一下,让我也瞧瞧

caboxer 发表于 2018-5-4 13:35:00


全球资源提供商 发表于 2018-5-4 13:35

没什么卵用

我会告诉你我有超100T的资源
去重了吗大佬

myseil 发表于 2018-5-4 13:40:39


全球资源提供商 发表于 2018-5-4 13:35

没什么卵用

我会告诉你我有超100T的资源
不分享让论坛兄弟bao你菊花不用润滑油 用辣椒酱!
static/image/smiley/yct/010.gif

sgwyhwt 发表于 2018-5-4 14:14:19

大佬10元的鸡鸡可以下载吗?
页: [1]
查看完整版本: redtube爬虫发布~~~~~~~~~~~~~~~~~~~~~~~~~~~~