立即注册  找回密码
 立即注册
CeraNetworksBGVM服务器主机交流会员请立即修改密码Sharktech防护
查看: 72|回复: 8

这个站资料能扒不

[复制链接]

这个站资料能扒不

[复制链接]

4

主题

7

回帖

42

积分

新手上路

积分
42
xia

4

主题

7

回帖

42

积分

新手上路

积分
42
2021-12-15 12:40:55 | 显示全部楼层 |阅读模式
比如这个页面
http://read.nlc.cn/OutOpenBook/OpenObjectBook?aid=403&bid=17912.0
回复

使用道具 举报

32

主题

363

回帖

1404

积分

金牌会员

积分
1404
huaheshang

32

主题

363

回帖

1404

积分

金牌会员

积分
1404
2021-12-15 12:45:40 | 显示全部楼层
多少预算
回复

使用道具 举报

4

主题

24

回帖

86

积分

注册会员

积分
86
skd363

4

主题

24

回帖

86

积分

注册会员

积分
86
2021-12-15 12:46:49 | 显示全部楼层
爬这个站?茶好喝

回复

使用道具 举报

39

主题

223

回帖

757

积分

高级会员

积分
757
cowe

39

主题

223

回帖

757

积分

高级会员

积分
757
2021-12-15 12:47:48 | 显示全部楼层

huaheshang 发表于 2021-12-15 12:45

多少预算


我猜楼主问的应该是 扒这个网站的内容 刑不刑,            

回复

使用道具 举报

53

主题

71

回帖

629

积分

高级会员

积分
629
zzzzhostloc

53

主题

71

回帖

629

积分

高级会员

积分
629
2021-12-15 12:45:00 | 显示全部楼层
可以爬,就是没几个人看这东西
回复

使用道具 举报

7

主题

328

回帖

1057

积分

金牌会员

积分
1057
miven

7

主题

328

回帖

1057

积分

金牌会员

积分
1057
2021-12-15 13:05:46 | 显示全部楼层
[ol]
  • import requests
  • import re
  • def get_filename_from_cd(cd):
  •     """
  •     Get filename from content-disposition
  •     """
  •     if not cd:
  •         return None
  •     fname = re.findall('filename=(.+)', cd)
  •     if len(fname) == 0:
  •         return None
  •     return fname[0]
  • cookies = {
  •     'JSESSIONID': 'fa496ef8-4c46-49ba-b74c-dfc4c66a1970',
  • }
  • headers = {
  •     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0',
  •     'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
  •     'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
  •     'Accept-Encoding': 'gzip, deflate',
  •     'Connection': 'keep-alive',
  •     'Upgrade-Insecure-Requests': '1',
  • }
  • session = requests.Session()
  • index = session.get("http://read.nlc.cn/OutOpenBook/OpenObjectBook?aid=403&bid=17912.0", headers=headers, cookies=cookies).text
  • token = re.findall(r"tokenKey="(.*)" timeKey="(.*)" timeFlag", index)
  • myreader = token[0][0]
  • ktime = token[0][1]
  • headers = {
  •     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0',
  •     'Accept': '*/*',
  •     'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
  •     'Accept-Encoding': 'gzip, deflate',
  •     'myreader': myreader,
  •     'Range': 'bytes=0-1',
  •     'Connection': 'keep-alive',
  •     'Referer': 'http://read.nlc.cn/static/webpdf/lib/WebPDFJRWorker.js?h=0.29527337592322755',
  • }
  • pdf = session.get("http://read.nlc.cn/menhu/OutOpenBook/getReader?aid=403&bid=17912.0&kime=" + ktime + "&fime=" + ktime, allow_redirects=True, headers=headers, cookies=cookies)
  • filename = get_filename_from_cd(pdf.headers.get('content-disposition'))
  • open(filename, 'wb').write(pdf.content)[/ol]复制代码
  • 回复

    使用道具 举报

    22

    主题

    3130

    回帖

    7180

    积分

    论坛元老

    积分
    7180
    sdqu

    22

    主题

    3130

    回帖

    7180

    积分

    论坛元老

    积分
    7180
    2021-12-15 14:03:19 | 显示全部楼层
    工具人上
    zsbd
    回复

    使用道具 举报

    0

    主题

    24

    回帖

    88

    积分

    注册会员

    积分
    88
    swsh007

    0

    主题

    24

    回帖

    88

    积分

    注册会员

    积分
    88
    2021-12-15 14:05:23 | 显示全部楼层
    这是国图最近发出来的古籍
    免费在线看的
    回复

    使用道具 举报

    110

    主题

    176

    回帖

    1560

    积分

    金牌会员

    积分
    1560
    七年

    110

    主题

    176

    回帖

    1560

    积分

    金牌会员

    积分
    1560
    2021-12-15 14:11:07 | 显示全部楼层
    爬       请你 喝茶
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    Archiver|小黑屋|HS2V主机综合交流论坛

    GMT+8, 2024-12-24 00:51 , Processed in 0.023122 second(s), 3 queries , Gzip On, Redis On.

    Powered by Discuz! X3.5

    © 2001-2024 Discuz! Team.

    快速回复 返回顶部 返回列表