eqblog 发表于 2018-3-18 21:20:16

jav爬虫的第N次发布,修复被检测问题,修复标题等等~~~

本帖最后由 eqblog 于 2018-3-18 21:30 编辑


static/image/smiley/yct/006.gif
结果实践,只要http代理即可过被检测的问题,所以这次脚本登陆和采集信息都是用代理采集,下载视频使用本地网络。

update内容:
1.默认使用代理抓取
2.如果出现被采集,或者没抓取到标题,会更换个随机代理继续抓取。
3.视频标题更换为了完整的标题
4.修复了一些杂七乱八的问题


没有默认账户,需要自己设置
另外清晰度设置在第三行(1080,720,480)等

我还在测试爬,下午的时候才搞了代理池发现没问题,然后测试了一会,我就发布了

一个随机http代理获取地址:https://iip.sk/get/

如果这个站死了,脚本就GG了。

关于上面这个站,是我搭建的代理池,使用了github大佬的代码,我自己也写了一个不过发现我功力还是不够啊,所以直接用了大佬的程序
开源地址:https://github.com/jhao104/proxy_pool


脚本文件:



static/image/filetype/zip.gif

spider.zip
(1.6 KB, 下载次数: 92)

2018-3-18 21:17 上传
点击文件名下载附件




funders 发表于 2018-3-18 23:11:39


eqblog 发表于 2018-3-18 23:00

那个。。我有点没理解你的话。。。

就是网址里 id/123456
那个123456命名视频啦,中文太J8蛋疼了

liyafe1997 发表于 2018-3-18 23:00:00

支持大佬~全球爬虫论坛~营养快线不够了

hellfires 发表于 2018-3-18 21:22:42

这是楼主的站么,看ip数量不是很多

eqblog 发表于 2018-3-18 21:23:28


hellfires 发表于 2018-3-18 21:23

这是楼主的站么,看ip数量不是很多
你说的是iip.sk吗。。那个是代理池。。刚搭建的。。

openos 发表于 2018-3-18 21:24:49

全球营养论坛...谢谢楼主

static/image/smiley/default/lol.gif

hellfires 发表于 2018-3-18 21:23:00


eqblog 发表于 2018-3-18 21:24

你说的是iip.sk吗。。那个是代理池。。刚搭建的。。
对,我以为是谁专门搞了一堆代理放上面免费提取的
static/image/smiley/yct/007.gif

eqblog 发表于 2018-3-18 21:25:04


hellfires 发表于 2018-3-18 21:26

对,我以为是谁专门搞了一堆代理放上面免费提取的

static/image/smiley/yct/006.gif
那个随机的理论上都是可以用的。。。我在脚本里直接用了

itsme 发表于 2018-3-18 21:26:12


eqblog 发表于 2018-3-18 21:24

你说的是iip.sk吗。。那个是代理池。。刚搭建的。。
iip.sk是楼主专门建来给脚本用的?

eqblog 发表于 2018-3-18 21:24:00


itsme 发表于 2018-3-18 21:26

iip.sk是楼主专门建来给脚本用的?
对的。。专门给脚本用来提供代理ip的
页: [1] 2
查看完整版本: jav爬虫的第N次发布,修复被检测问题,修复标题等等~~~