找回密码
 立即注册
CeraNetworksBGVM服务器主机交流会员请立即修改密码Sharktech防护
查看: 86|回复: 9

采集网站,如何快速去除网站里的404页面?

[复制链接]

10

主题

111

回帖

334

积分

中级会员

积分
334
发表于 2020-4-6 21:42:38 | 显示全部楼层 |阅读模式
www.xxx.com/1.html  
......
www.xxx.com/400000.html  

火车头想采集一个站点,有40万个页面,但里面起码有一半的页面是404页面,直接火车头采集会浪费大量的时间。
请教各位大佬,有什么办法能快速的判断并筛选出正常的页面(非404的页面)?
回复

使用道具 举报

95

主题

108

回帖

707

积分

高级会员

积分
707
发表于 2020-4-6 22:19:34 | 显示全部楼层
本帖最后由 lna 于 2020-4-6 22:35 编辑

当我没说
回复

使用道具 举报

1

主题

2289

回帖

4591

积分

论坛元老

积分
4591
发表于 2020-4-6 21:43:38 | 显示全部楼层
你会自己写程序就很简单,不会就很难了

回复

使用道具 举报

10

主题

111

回帖

334

积分

中级会员

积分
334
 楼主| 发表于 2020-4-6 21:45:31 | 显示全部楼层

一个不知名网友 发表于 2020-4-6 21:43

你会自己写程序就很简单,不会就很难了

就是不会写,所以问下LOC大佬有什么工具推荐没有!
回复

使用道具 举报

15

主题

421

回帖

921

积分

高级会员

积分
921
发表于 2020-4-6 21:43:00 | 显示全部楼层
不懂,帮顶。
我很想知道
1、你采集的站被百度收录了吗?如果收录了你,你采了还会收录你的吗?加入伪原创吗?怎么加的?
2、你的采集目标站如果没被百度收录 ,那么你是怎么找到的??
回复

使用道具 举报

1

主题

26

回帖

77

积分

注册会员

积分
77
发表于 2020-4-6 21:56:08 | 显示全部楼层
看看 404 页面有什么特征....
回复

使用道具 举报

12

主题

104

回帖

382

积分

中级会员

积分
382
发表于 2020-4-6 22:07:00 | 显示全部楼层
在采集的时候跳过空白内容就行
回复

使用道具 举报

10

主题

111

回帖

334

积分

中级会员

积分
334
 楼主| 发表于 2020-4-6 22:14:06 | 显示全部楼层

wgetrc 发表于 2020-4-6 22:14

看看 404 页面有什么特征....

有特征,就是看有什么工具推荐没?
回复

使用道具 举报

10

主题

111

回帖

334

积分

中级会员

积分
334
 楼主| 发表于 2020-4-6 22:27:32 | 显示全部楼层

fuan 发表于 2020-4-6 22:27

在采集的时候跳过空白内容就行

采集至少得留间隔时间,例如间隔时间5s,那20万个404页面也就占了不少时间。
所以问下LOC的大佬,是否有什么工具能先判断筛选出来。
回复

使用道具 举报

62

主题

235

回帖

1460

积分

金牌会员

积分
1460
发表于 2020-4-6 22:29:45 | 显示全部楼层
响应是404。。。正常响应是200,火车头我记得可以判断页头
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|HS2V主机综合交流论坛

GMT+8, 2024-11-9 06:14 , Processed in 0.922846 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 |   访问量:   |   访客量:  

© 2001-2024 Discuz! Team. |   今日访问量:    |   今日访客量:  

快速回复 返回顶部 返回列表