hacker5402 发表于 2018-7-24 22:10:10

写爬虫时遇到个神奇的站点

本帖最后由 hacker5402 于 2018-7-24 22:11 编辑

写的代理IP爬虫,写的差不多了,在收集代理网站,
收集了8个资源站 都是xpath一匹配就行,偏偏这个例外
这个http://www.goubanjia.com/


https://i.loli.net/2018/07/24/5b56fddb0af16.png

一个IP地址 要搞这么多标签搞混吗 就是不让人去爬吧 ..


https://i.loli.net/2018/07/24/5b5706423baed.png


然后写了段程序去爬。出来是出来了,结果发现request.get每次获取url的内容中的端口号都是变化的!
。。。端口号都是变化的
那其他工具get得到的也是,每次端口都是变化的,chrome检查元素的端口是正确的,但response的端口是变化的
然后去查看这个站里的js文件,发现个可疑的


https://i.loli.net/2018/07/24/5b572ab1176db.png


解密后


https://i.loli.net/2018/07/24/5b572ad3c8742.png


大致恢复了下源代码

https://i.loli.net/2018/07/24/5b572b0966deb.png


于是对着一写。。。


https://i.loli.net/2018/07/24/5b572b5bd3ed0.png


水一贴

fei2018 发表于 2018-7-24 22:12:20

牛逼啊大佬,想跟你学技术

广东吴彦祖 发表于 2018-7-24 22:12:24

看不懂 楼下大佬解释下
static/image/smiley/yct/008.gif

doruison 发表于 2018-7-24 22:14:48

排风完全不会,js忘光了

ddosworks 发表于 2018-7-24 22:15:38

你还没见过生成图片然后取坐标的

hacker5402 发表于 2018-7-24 22:18:35


ddosworks 发表于 2018-7-24 22:15

你还没见过生成图片然后取坐标的

就是觉得这个一个代理IP而已还至于这样吗..

liang0754 发表于 2018-7-24 22:15:00

何必呢少年
static/image/smiley/yct/022.gif
[*]http://www.66ip.cn/mo.php?tqsl=1000复制代码

话说你这个 goubanjia == 狗搬家 ?

hacker5402 发表于 2018-7-24 22:25:57


liang0754 发表于 2018-7-24 22:25

何必呢少年
太多不能用了,这个站也在采集的资源站了,都是定时采集验证入库

爱吹海绵的泡泡 发表于 2018-7-24 22:41:19

大佬收徒吗

tims 发表于 2018-7-24 22:25:00

同楼上,收徒吗
页: [1]
查看完整版本: 写爬虫时遇到个神奇的站点