找回密码
 立即注册
CeraNetworksBGVM服务器主机交流IP归属甄别会员请立即修改密码
查看: 201|回复: 11

明盘500找大佬帮我用C或Java写一个爬虫工具

[复制链接]

48

主题

54

回帖

522

积分

高级会员

积分
522
发表于 2020-5-1 18:17:11 | 显示全部楼层 |阅读模式
学校的作业,要求不用任何library库,尤其是web/http/html-related库,所有代码都要自己写。

这是需要抓取的网站:http://comp3310
(去掉)
.ddns.net:7880
纯HTML页面,没有CSS也没有JS。

代码需要返回以下信息:
1. 所有URLs的总数波阔error和redirects
2. 网站中html页面和非html页面的总数(如图片)
3. 最大和最小的html页面和他们的大小
4. 最旧和最新的html页面
5. 所有404 RULs的list
6. 所有重定向的RULs
7. 站点外的URLs以及这些链接是否有效



回复

使用道具 举报

3

主题

105

回帖

261

积分

中级会员

积分
261
发表于 2020-5-1 19:00:09 | 显示全部楼层
有轮子不让用,老师失了智
回复

使用道具 举报

43

主题

395

回帖

1287

积分

金牌会员

积分
1287
发表于 2020-5-1 20:18:04 | 显示全部楼层
C#的话可以做,JAVA其实也不难
回复

使用道具 举报

22

主题

134

回帖

520

积分

高级会员

积分
520
发表于 2020-5-1 20:22:00 | 显示全部楼层
Python可以吗
回复

使用道具 举报

48

主题

54

回帖

522

积分

高级会员

积分
522
 楼主| 发表于 2020-5-1 18:20:28 | 显示全部楼层

yinux 发表于 2020-5-1 18:20

Python可以吗

不行啊,只能是C或者Java,并且不用任何外部库
回复

使用道具 举报

7

主题

64

回帖

433

积分

中级会员

积分
433
发表于 2020-5-1 18:21:45 | 显示全部楼层
不用外部库写有点麻烦啊
回复

使用道具 举报

43

主题

1081

回帖

2619

积分

金牌会员

积分
2619
发表于 2020-5-1 18:20:00 | 显示全部楼层
用csharp或java还不让用第三方库写爬虫……我把头给你拧下来……如果用java可以用okhttp之类的库的话我考虑一下
回复

使用道具 举报

33

主题

232

回帖

751

积分

高级会员

积分
751
发表于 2020-5-1 18:22:40 | 显示全部楼层
HttpConnection这些能用不?
回复

使用道具 举报

22

主题

678

回帖

1534

积分

金牌会员

积分
1534
发表于 2020-5-1 18:22:54 | 显示全部楼层
水逼~ 不用库 写个毛线




回复

使用道具 举报

48

主题

54

回帖

522

积分

高级会员

积分
522
 楼主| 发表于 2020-5-1 18:24:22 | 显示全部楼层

揽月 发表于 2020-5-1 18:24

HttpConnection这些能用不?

这是外部库吗?如果是Java自己的库应该可以的
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|HS2V主机综合交流论坛

GMT+8, 2024-6-2 12:39 , Processed in 0.065573 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表