有个难题请教爬虫大佬-Web技术-HS2V主机综合交流论坛

kumotobi 发表于 2018-3-26 12:53:13

有个难题请教爬虫大佬

本帖最后由 kumotobi 于 2018-3-26 12:54 编辑

因为项目需要，想用Python爬虫爬LinkedIn上的公司公开主页信息，页面总数可能上百万，但是LinkedIn号称有全球最强反爬虫技术，通过谷歌搜索进入公司页面前几次可以不用登录之后则出现登录界面，挂VP/N、清cookies无效。同一账号登录后大量爬去则被封号。据说谷歌爬虫可以无限制爬LinkedIn页面，有没有可能利用这一点伪装成谷歌爬虫？其他目前能想到的就是找大量IP代理池，注册大量账号轮换使用，那么哪里能低价买到大量账号？或者还有什么思路？谢谢各位大佬

蓝鹰发表于 2018-3-26 14:34:39

直接抓谷歌的不是一样的效果?

jbiao520 发表于 2018-3-26 14:09:47

google爬虫估计linkedin家有白名单的，不是那么好伪装的

eqblog 发表于 2018-3-26 14:35:51

楼上说的对直接抓谷歌就好了别自己给自己找麻烦
static/image/smiley/yct/007.gif

fei2018 发表于 2018-3-26 14:45:54

"
eq大佬现身，最近还有什么新爬虫教程吗

eqblog 发表于 2018-3-26 14:35:00

fei2018 发表于 2018-3-26 14:45

eq大佬现身，最近还有什么新爬虫教程吗

static/image/smiley/yct/006.gif
没什么好玩的网站啊，没动力

king51 发表于 2018-3-26 14:49:24

static/image/smiley/default/lol.gif
那就试试谷歌UA咯

king51 发表于 2018-3-26 14:45:00

另外挂微屁恩的话，识别很方便，服务器的段早就被盯上了

页: [1]

HS2V主机综合交流论坛's Archiver

有个难题请教爬虫大佬