立即注册  找回密码
 立即注册
CeraNetworksBGVM服务器主机交流会员请立即修改密码Sharktech防护
查看: 132|回复: 8

python + wordpress做采集站?

[复制链接]

python + wordpress做采集站?

[复制链接]

3

主题

47

回帖

133

积分

注册会员

积分
133
Alanku

3

主题

47

回帖

133

积分

注册会员

积分
133
2020-8-20 23:29:01 | 显示全部楼层 |阅读模式
想整个采集站玩玩,论坛里常常出现采集利器火车头又不会用,只会一点点python,会写一点小爬虫。

源站的文章发的是txt格式的纯文本,没有适配浏览大小,阅读效果较差。

我最先的做法是写的一个脚本,把源站的txt纯文本转换为markdown格式保存,因为markdown格式的文本,方便迁移,在本地也有较好的阅读体验。然后,找一个工具把markdown文件渲染成网页,比如Hexo。但是,好像有点问题,做成静态网站,似乎不太好统计数据,比如访客数量啥的,也不好放广告吧。

后面,上网看看,似乎typecho更合适,因为它原生支持markdown语法,但我有没找到怎么把处理好的md文章推送上去,不能我手动一篇篇往上粘贴吧。

最后,发现wordpress有个插件xmlrpc,提供了接口推送文章,还有python的代码示例,就打算就以这种方式做了。

不知道各位大佬有没有利用python做过采集站的,或者有相关经验的,求指点一二,给新人一点建议。
回复

使用道具 举报

22

主题

821

回帖

2340

积分

金牌会员

积分
2340
yrj

22

主题

821

回帖

2340

积分

金牌会员

积分
2340
2020-8-20 23:38:03 | 显示全部楼层
正在用,但没看懂你需要什么经验
回复

使用道具 举报

3

主题

47

回帖

133

积分

注册会员

积分
133
Alanku 楼主

3

主题

47

回帖

133

积分

注册会员

积分
133
2020-8-20 23:43:52 | 显示全部楼层

yrj 发表于 2020-8-20 23:38

正在用,但没看懂你需要什么经验

大佬,你正在插件xmlrpc配合python爬虫做采集站吗?
回复

使用道具 举报

22

主题

821

回帖

2340

积分

金牌会员

积分
2340
yrj

22

主题

821

回帖

2340

积分

金牌会员

积分
2340
2020-8-20 23:38:00 | 显示全部楼层

Alanku 发表于 2020-8-20 23:43

大佬,你正在插件xmlrpc配合python爬虫做采集站吗?

在用python,没在用wordpress
回复

使用道具 举报

3

主题

47

回帖

133

积分

注册会员

积分
133
Alanku 楼主

3

主题

47

回帖

133

积分

注册会员

积分
133
2020-8-20 23:45:05 | 显示全部楼层

yrj 发表于 2020-8-20 23:45

在用python,没在用wordpress

没做采集站?我想来点利用python做采集站的经验。
python爬虫我会写,但没做个过采集站(实际上也没建过站),不知道咋把二者结合起来。
回复

使用道具 举报

22

主题

821

回帖

2340

积分

金牌会员

积分
2340
yrj

22

主题

821

回帖

2340

积分

金牌会员

积分
2340
2020-8-20 23:43:00 | 显示全部楼层

Alanku 发表于 2020-8-20 23:49

没做采集站?我想来点利用python做采集站的经验。
python爬虫我会写,但没做个过采集站(实际上也没建过 ...

你这个问题太宽泛。可以百度学习一下。
回复

使用道具 举报

丁氏春秋 该用户已被删除
丁氏春秋

主题

0

回帖

积分

积分
2020-8-20 23:49:35 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

3

主题

47

回帖

133

积分

注册会员

积分
133
Alanku 楼主

3

主题

47

回帖

133

积分

注册会员

积分
133
2020-8-20 23:45:00 | 显示全部楼层

丁氏春秋 发表于 2020-8-20 23:51

https://blog.oliverxu.cn/2018/11/11/%E9%87%87%E9%9B%86wordpress%E5%B9%B6%E8%87%AA%E5%8A%A8%E5%8F%91% ...

多谢
回复

使用道具 举报

27

主题

56

回帖

365

积分

中级会员

积分
365
ihsky

27

主题

56

回帖

365

积分

中级会员

积分
365
2020-8-20 23:50:33 | 显示全部楼层
你既然会python了 干嘛还要用第三方程序,直接django,一步到位,再用celery做定时任务,完美的自动采集发布
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|小黑屋|HS2V主机综合交流论坛

GMT+8, 2024-11-22 23:28 , Processed in 0.085803 second(s), 10 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表