立即注册  找回密码
 立即注册
CeraNetworksBGVM服务器主机交流会员请立即修改密码Sharktech防护
查看: 39|回复: 0

[笔记] API链接自定义提取方式

[复制链接]

[笔记] API链接自定义提取方式

[复制链接]

66

主题

24

回帖

696

积分

高级会员

积分
696
odmin

66

主题

24

回帖

696

积分

高级会员

积分
696
2023-11-2 22:32:06 | 显示全部楼层 |阅读模式
HTTP代理IP,目前大数据时代不可缺少一种IP协议,网络爬虫的必需品。HTTP代理IP关乎着网络爬虫的业务进展和公司的发展。所以越来越多的大数据公司使用HTTP代理IP进行业务的需求。使用过代理IP的网络爬虫用户都清楚,代理IP分为两种使用方式,常见就是通过API提取的代理IP。API模式是广为熟知的使用方式,调用方式也很简单。那如何自定修改API链接呢?由于每家代理商的修改方式不同,所以我这边选择的是亿牛云API代理的修改方式。
如何提取API链接:


如何自定义API链接:
1、获取指定格式
(1)获取JSON格式:在链接后面加上 &format=json,返回JSON格式
(2)获取自定义分隔符:在链接后面加上 &part=[分隔符] ,[分隔符] 需要使用url转义
2、获取指定数量
(1)获取指定数量代理IP:在链接后面加上 &count=[数量] ,[数量] 超过最大数量后,默认为最大数量
(2)获取指定数量代理IP(分发模式):适用于大量机器的代理分发,每次分发指定数量的代理, 分发频率不受[代理提取频率]限制,代理不足时会触发代理提取([代理提取频率]超过限制后,可能获取到重复代理) ,分发数据缓存有效期[<86400秒](有效期可以用dttl=[秒]参数指定,最小不能低于10,最大不能超过86400)
在链接后面加上 &dist=[数量] ,[数量] 超过最大数量后,默认为最大数量 , 在链接后面加上 &dist=[数量]&dttl=[秒],可以同时指定分发缓存的时间
分发模式:为了给服务器集群或多线程软件提供更快的API响应速度,平台提供分发模式。在代理API链接后面加上&dist=[数量],可以实现每秒快速多次请求,每次获取相应数量的代理IP。例如:API&dist=1,表示每次提取1个IP。需要注意的问题是:
(1) 分发模式并不能增加单位时间内的代理IP提取总量,例如动态短效代理,标准产品是每分钟提取50个代理IP,分发模式快速提取超出每分钟50个代理IP的总量,会导致访问返回429,客户可以增加该订单的代理IP提取量避免上述情况。
(2)分发模式是基于服务器缓存机制,代理IP有效时间会相应缩短,因此代理IP要尽快提取使用,否则可能出现ip失效的情况。
每家代理商的API连接自定义方式不同,以上是选择网上出名的亿牛云代理商作为参考。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|小黑屋|HS2V主机综合交流论坛

GMT+8, 2024-12-26 14:53 , Processed in 0.013939 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表