立即注册  找回密码
 立即注册
CeraNetworksBGVM服务器主机交流会员请立即修改密码Sharktech防护
查看: 105|回复: 10

全球python开发论坛

[复制链接]

全球python开发论坛

[复制链接]

30

主题

215

回帖

796

积分

高级会员

积分
796
深海空间

30

主题

215

回帖

796

积分

高级会员

积分
796
2022-5-7 21:30:41 | 显示全部楼层 |阅读模式
本帖最后由 深海空间 于 2022-5-7 22:10 编辑

最近有个需求,就是按照搜索关键字然后爬取国内某个网站的图片并发送到TG bot,现在遇到了一个问题,就是这个站点用的图床是一个叫做imgsto的图床,这个图床有一个恶心的地方就是点进去之后他会叫你点击一个叫做 Continue to image 的按钮(这个按钮要点好几次才可以点到),这个简单,我就撸了几行python代码获取真实链接






然后把这个链接发给TG bot的时候死活得到400的结果,最后经过测试发现,这个返回来的链接好像时关联访问IP的,当我使用其他IP来访问这个我得到的real_url时会得到一个 Wrong IP 的结果




现在我想问的是,要怎么按照原来的设想,我输入关键字之后脚本自动把这张图发送到bot呢?
我目前自己想的一个方法就是先把这个图片解析完之后下载到本地,然后再本地上传到TG服务器,但是这样每一张图都涉及到一次IO操作
有没有什么办法避免呢?比如存到内存之类的(可以吗?)这样就不用一直往复写入硬盘了
或者说各位MJJ有没有其他更优雅的方式?

得到六楼提醒,直接使用request的content对象解决了多次操作IO问题
回复

使用道具 举报

107

主题

815

回帖

2935

积分

金牌会员

积分
2935
rem

107

主题

815

回帖

2935

积分

金牌会员

积分
2935
2022-5-7 22:25:03 | 显示全部楼层
requests的content是二进制流,本来就是存在内存中的,可以直接使用,但是这样有很大弊端,有可能内存溢出,最优解还是将content写入文件,形成类似文件池,单独进程去处理文件池发给bot
回复

使用道具 举报

4

主题

4386

回帖

9278

积分

论坛元老

积分
9278
表妹

4

主题

4386

回帖

9278

积分

论坛元老

积分
9278
2022-5-7 21:32:00 | 显示全部楼层
图片漏点了
回复

使用道具 举报

211

主题

642

回帖

3141

积分

论坛元老

积分
3141
etc小号

211

主题

642

回帖

3141

积分

论坛元老

积分
3141
2022-5-7 21:34:00 | 显示全部楼层
和你想法一样,下载再上传,其实效率上也没有太大变化,毕竟tg的api也有限制的
回复

使用道具 举报

23

主题

550

回帖

1641

积分

金牌会员

积分
1641
雁过拔毛的MJJ

23

主题

550

回帖

1641

积分

金牌会员

积分
1641
2022-5-7 21:34:11 | 显示全部楼层
只能下载在上传然后删除文件
回复

使用道具 举报

22

主题

154

回帖

560

积分

高级会员

积分
560
mjj小号

22

主题

154

回帖

560

积分

高级会员

积分
560
2022-5-7 21:36:57 | 显示全部楼层
带上本地cookie试试,太久没写爬虫了
已经三年没写过py了


都寄吧忘了
回复

使用道具 举报

7

主题

162

回帖

523

积分

高级会员

积分
523
Floppy

7

主题

162

回帖

523

积分

高级会员

积分
523
2022-5-7 21:38:13 | 显示全部楼层
IO操作影响不大,不过你也可以试试直接用requests.get来请求这个图片的地址,然后返回值里面好像有个content成员可以直接使用
回复

使用道具 举报

16

主题

171

回帖

654

积分

高级会员

积分
654
hihandbag

16

主题

171

回帖

654

积分

高级会员

积分
654
2022-5-7 21:42:01 | 显示全部楼层
种子的预览图片???
回复

使用道具 举报

11

主题

1727

回帖

4315

积分

论坛元老

积分
4315
Salta

11

主题

1727

回帖

4315

积分

论坛元老

积分
4315
2022-5-7 21:50:27 | 显示全部楼层
Redis,直接在内存处理了啊

回复

使用道具 举报

30

主题

215

回帖

796

积分

高级会员

积分
796
深海空间 楼主

30

主题

215

回帖

796

积分

高级会员

积分
796
2022-5-7 21:55:32 | 显示全部楼层

hihandbag 发表于 2022-5-7 21:50

种子的预览图片???

emmm, 咱现在讨论的是技术性问题

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|小黑屋|HS2V主机综合交流论坛

GMT+8, 2024-11-22 20:16 , Processed in 0.073958 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表