立即注册  找回密码
 立即注册
CeraNetworksBGVM服务器主机交流会员请立即修改密码Sharktech防护
查看: 59|回复: 5

爬虫大佬进来看看 这个书籍的详细信息部分该怎么抓取

[复制链接]

爬虫大佬进来看看 这个书籍的详细信息部分该怎么抓取

[复制链接]

13

主题

59

回帖

311

积分

中级会员

积分
311
小心二次元

13

主题

59

回帖

311

积分

中级会员

积分
311
2021-9-19 11:48:26 | 显示全部楼层 |阅读模式
https://book.kongfz.com/247990/3896087752/



这里f12看是无序列表 有的书信息不全 怎么才能按字段把信息抓取出来 比如 作者 出版社 这样分开提取 出来


回复

使用道具 举报

71

主题

375

回帖

2313

积分

金牌会员

积分
2313
tonyma

71

主题

375

回帖

2313

积分

金牌会员

积分
2313
2021-9-19 11:50:47 | 显示全部楼层
不都是一个结构里面的数据吗?结构化数据,if else判断提取就行
回复

使用道具 举报

0

主题

1

回帖

4

积分

新手上路

积分
4
asan1148

0

主题

1

回帖

4

积分

新手上路

积分
4
2021-9-19 12:00:20 | 显示全部楼层
xpath 定位作者 出版时间等 然后提取子节点数据
回复

使用道具 举报

26

主题

187

回帖

962

积分

高级会员

积分
962
盯裆猫

26

主题

187

回帖

962

积分

高级会员

积分
962
2021-9-19 12:00:34 | 显示全部楼层
正则 css xpath 都可以啊
回复

使用道具 举报

7

主题

1066

回帖

3429

积分

论坛元老

积分
3429
van

7

主题

1066

回帖

3429

积分

论坛元老

积分
3429
2021-9-19 12:01:06 | 显示全部楼层
取所以的ul把,匹配标识
回复

使用道具 举报

4

主题

76

回帖

288

积分

中级会员

积分
288
JustDoing

4

主题

76

回帖

288

积分

中级会员

积分
288
2021-9-19 12:02:13 | 显示全部楼层
提供一个思路,
先把  detail-list1 的内容搞到,然后 get_all 所有的 li 标签,每个li标签都转成文字(.text()),之后在分割字符串  :  ,实现信息的数组化

我思路是用python爬,其他的语言借鉴即可
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|小黑屋|HS2V主机综合交流论坛

GMT+8, 2024-12-29 09:32 , Processed in 0.020371 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表