爬虫大佬进来看看这个书籍的详细信息部分该怎么抓取

小心二次元 · 2021-9-19 11:48:26

https://book.kongfz.com/247990/3896087752/

这里f12看是无序列表有的书信息不全怎么才能按字段把信息抓取出来比如作者出版社这样分开提取出来

tonyma · 2021-9-19 11:50:47

不都是一个结构里面的数据吗？结构化数据，if else判断提取就行

asan1148 · 2021-9-19 12:00:20

xpath 定位作者出版时间等然后提取子节点数据

盯裆猫 · 2021-9-19 12:00:34

正则 css xpath 都可以啊

van · 2021-9-19 12:01:06

取所以的ul把，匹配标识

JustDoing · 2021-9-19 12:02:13

提供一个思路，
先把 detail-list1 的内容搞到，然后 get_all 所有的 li 标签，每个li标签都转成文字（.text()）,之后在分割字符串 : ，实现信息的数组化

我思路是用python爬，其他的语言借鉴即可

		立即注册	自动登录	找回密码
密码			立即注册

爬虫大佬进来看看 这个书籍的详细信息部分该怎么抓取