redtube爬虫发布~~~~~~~~~~~~~~~~~~~~~~~~~~~~
static/image/smiley/yct/022.gif标题一定要长
static/image/filetype/zip.gif
spider.zip
(1.63 KB, 下载次数: 246)
2018-5-4 13:33 上传
点击文件名下载附件
默认爬取720P的清晰度,如果需要更低清晰度请修改代码87行。
爬取的页面是https://www.redtube.com/mostviewed
权限1其实是游客也可见的。。。 本帖最后由 全球资源提供商 于 2018-5-4 15:19 编辑
没什么卵用
我会告诉你我有超100T的资源
光tumblr就有20w
Update #0
分享不现实, 文件太多太大, 而且流量很贵
Update #1
看来你们对汤不热很有兴趣, 我给个逻辑
首先 你要维护一个用户列表, 就是更新资源的用户
然后循环这个列表去采集 就好了, 注意维护一个URL队列 去重用途
我是用的官方API来采集
逻辑这样
内容服务器
#1 采集
判断用户内容数量 如果和上次采集的数量一样
如果多 则代表有更新 采集 自动去重
标记为未下载
存储服务器
#2 下载
读取队列 查询未下载的
下载文件和图片 存储本地
#3 效验
我用的最简单的方法 判断文件是不是存在,且文件大小大于0
这样就好了
全球资源提供商 发表于 2018-5-4 13:35
没什么卵用
我会告诉你我有超100T的资源
static/image/smiley/yct/022.gif
有用就不会发布了 呵呵
yongs 发表于 2018-5-4 13:40
求gd分享。
tongqiu
全球资源提供商 发表于 2018-5-4 13:35
没什么卵用
我会告诉你我有超100T的资源
赶紧的,分享一下,让我也瞧瞧
全球资源提供商 发表于 2018-5-4 13:35
没什么卵用
我会告诉你我有超100T的资源
去重了吗大佬
全球资源提供商 发表于 2018-5-4 13:35
没什么卵用
我会告诉你我有超100T的资源
不分享让论坛兄弟bao你菊花不用润滑油 用辣椒酱!
static/image/smiley/yct/010.gif
大佬10元的鸡鸡可以下载吗?
页:
[1]