写爬虫时遇到个神奇的站点
本帖最后由 hacker5402 于 2018-7-24 22:11 编辑写的代理IP爬虫,写的差不多了,在收集代理网站,
收集了8个资源站 都是xpath一匹配就行,偏偏这个例外
这个http://www.goubanjia.com/
https://i.loli.net/2018/07/24/5b56fddb0af16.png
一个IP地址 要搞这么多标签搞混吗 就是不让人去爬吧 ..
https://i.loli.net/2018/07/24/5b5706423baed.png
然后写了段程序去爬。出来是出来了,结果发现request.get每次获取url的内容中的端口号都是变化的!
。。。端口号都是变化的
那其他工具get得到的也是,每次端口都是变化的,chrome检查元素的端口是正确的,但response的端口是变化的
然后去查看这个站里的js文件,发现个可疑的
https://i.loli.net/2018/07/24/5b572ab1176db.png
解密后
https://i.loli.net/2018/07/24/5b572ad3c8742.png
大致恢复了下源代码
https://i.loli.net/2018/07/24/5b572b0966deb.png
于是对着一写。。。
https://i.loli.net/2018/07/24/5b572b5bd3ed0.png
水一贴 牛逼啊大佬,想跟你学技术 看不懂 楼下大佬解释下
static/image/smiley/yct/008.gif
排风完全不会,js忘光了 你还没见过生成图片然后取坐标的
ddosworks 发表于 2018-7-24 22:15
你还没见过生成图片然后取坐标的
就是觉得这个一个代理IP而已还至于这样吗.. 何必呢少年
static/image/smiley/yct/022.gif
[*]http://www.66ip.cn/mo.php?tqsl=1000复制代码
话说你这个 goubanjia == 狗搬家 ?
liang0754 发表于 2018-7-24 22:25
何必呢少年
太多不能用了,这个站也在采集的资源站了,都是定时采集验证入库 大佬收徒吗 同楼上,收徒吗
页:
[1]