找回密码
 立即注册
CeraNetworksBGVM服务器主机交流会员请立即修改密码Sharktech防护
查看: 55|回复: 5

爬虫大佬进来看看 这个书籍的详细信息部分该怎么抓取

[复制链接]

13

主题

59

回帖

267

积分

中级会员

积分
267
发表于 2021-9-19 11:48:26 | 显示全部楼层 |阅读模式
https://book.kongfz.com/247990/3896087752/



这里f12看是无序列表 有的书信息不全 怎么才能按字段把信息抓取出来 比如 作者 出版社 这样分开提取 出来


回复

使用道具 举报

69

主题

370

回帖

2289

积分

金牌会员

积分
2289
发表于 2021-9-19 11:50:47 | 显示全部楼层
不都是一个结构里面的数据吗?结构化数据,if else判断提取就行
回复

使用道具 举报

0

主题

1

回帖

4

积分

新手上路

积分
4
发表于 2021-9-19 12:00:20 | 显示全部楼层
xpath 定位作者 出版时间等 然后提取子节点数据
回复

使用道具 举报

26

主题

187

回帖

962

积分

高级会员

积分
962
发表于 2021-9-19 12:00:34 | 显示全部楼层
正则 css xpath 都可以啊
回复

使用道具 举报

7

主题

1037

回帖

3331

积分

论坛元老

积分
3331
发表于 2021-9-19 12:01:06 | 显示全部楼层
取所以的ul把,匹配标识
回复

使用道具 举报

4

主题

76

回帖

288

积分

中级会员

积分
288
发表于 2021-9-19 12:02:13 | 显示全部楼层
提供一个思路,
先把  detail-list1 的内容搞到,然后 get_all 所有的 li 标签,每个li标签都转成文字(.text()),之后在分割字符串  :  ,实现信息的数组化

我思路是用python爬,其他的语言借鉴即可
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|HS2V主机综合交流论坛

GMT+8, 2024-10-20 07:38 , Processed in 0.116528 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 |   访问量:   |   访客量:  

© 2001-2024 Discuz! Team. |   今日访问量:    |   今日访客量:  

快速回复 返回顶部 返回列表