立即注册  找回密码
 立即注册
CeraNetworksBGVM服务器主机交流会员请立即修改密码Sharktech防护
查看: 130|回复: 5

Python正文提取算法

[复制链接]

Python正文提取算法

[复制链接]

51

主题

254

回帖

1180

积分

金牌会员

积分
1180
Administrator

51

主题

254

回帖

1180

积分

金牌会员

积分
1180
2011-4-6 22:58:52 | 显示全部楼层 |阅读模式
太阳 就一个

回复

使用道具 举报

51

主题

254

回帖

1180

积分

金牌会员

积分
1180
Administrator 楼主

51

主题

254

回帖

1180

积分

金牌会员

积分
1180
2011-4-6 23:03:04 | 显示全部楼层
niu
回复

使用道具 举报

51

主题

254

回帖

1180

积分

金牌会员

积分
1180
Administrator 楼主

51

主题

254

回帖

1180

积分

金牌会员

积分
1180
2011-4-6 23:03:30 | 显示全部楼层
好牛逼
回复

使用道具 举报

18

主题

697

回帖

2286

积分

金牌会员

积分
2286
Poison

18

主题

697

回帖

2286

积分

金牌会员

积分
2286
2011-4-6 23:18:07 | 显示全部楼层
原帖由 xspoco 于 2011-4-6 23:44 发表


好牛逼
回复

使用道具 举报

18

主题

77

回帖

244

积分

中级会员

积分
244
jacksoking

18

主题

77

回帖

244

积分

中级会员

积分
244
2011-4-6 23:24:43 | 显示全部楼层
这语言真累,,,,
回复

使用道具 举报

93

主题

419

回帖

1864

积分

金牌会员

积分
1864
serverpoint

93

主题

419

回帖

1864

积分

金牌会员

积分
1864
2011-4-6 23:36:28 | 显示全部楼层
[ol][*]        for div in divs:
[*]                div_html = div.__str__()
[*]                chinese_utf8 = re_chinese.findall(div_html)
[*]                chinese_number = len(chinese_utf8) / 3
[*]                if chinese_number 复制代码这段要改下,迭代里删东西会出问题的
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|小黑屋|HS2V主机综合交流论坛

GMT+8, 2025-3-11 06:39 , Processed in 0.018997 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表