odmin 发表于 2023-11-2 22:32:06

[笔记] API链接自定义提取方式

HTTP代理IP,目前大数据时代不可缺少一种IP协议,网络爬虫的必需品。HTTP代理IP关乎着网络爬虫的业务进展和公司的发展。所以越来越多的大数据公司使用HTTP代理IP进行业务的需求。使用过代理IP的网络爬虫用户都清楚,代理IP分为两种使用方式,常见就是通过API提取的代理IP。API模式是广为熟知的使用方式,调用方式也很简单。那如何自定修改API链接呢?由于每家代理商的修改方式不同,所以我这边选择的是亿牛云API代理的修改方式。
如何提取API链接:


如何自定义API链接:
1、获取指定格式
(1)获取JSON格式:在链接后面加上 &format=json,返回JSON格式
(2)获取自定义分隔符:在链接后面加上 &part=[分隔符] ,[分隔符] 需要使用url转义
2、获取指定数量
(1)获取指定数量代理IP:在链接后面加上 &count=[数量] ,[数量] 超过最大数量后,默认为最大数量
(2)获取指定数量代理IP(分发模式):适用于大量机器的代理分发,每次分发指定数量的代理, 分发频率不受[代理提取频率]限制,代理不足时会触发代理提取([代理提取频率]超过限制后,可能获取到重复代理) ,分发数据缓存有效期[<86400秒](有效期可以用dttl=[秒]参数指定,最小不能低于10,最大不能超过86400)
在链接后面加上 &dist=[数量] ,[数量] 超过最大数量后,默认为最大数量 , 在链接后面加上 &dist=[数量]&dttl=[秒],可以同时指定分发缓存的时间
分发模式:为了给服务器集群或多线程软件提供更快的API响应速度,平台提供分发模式。在代理API链接后面加上&dist=[数量],可以实现每秒快速多次请求,每次获取相应数量的代理IP。例如:API&dist=1,表示每次提取1个IP。需要注意的问题是:
(1) 分发模式并不能增加单位时间内的代理IP提取总量,例如动态短效代理,标准产品是每分钟提取50个代理IP,分发模式快速提取超出每分钟50个代理IP的总量,会导致访问返回429,客户可以增加该订单的代理IP提取量避免上述情况。
(2)分发模式是基于服务器缓存机制,代理IP有效时间会相应缩短,因此代理IP要尽快提取使用,否则可能出现ip失效的情况。
每家代理商的API连接自定义方式不同,以上是选择网上出名的亿牛云代理商作为参考。
页: [1]
查看完整版本: [笔记] API链接自定义提取方式