PYTHON爱好者
PYTHON, twisted, 网络编程。
解析网页内容的好代码
from
sgmllib
import
SGMLParser
import
urllib
class
URLLister(SGMLParser):
def
reset(self):
SGMLParser.reset(self)
self.urls
=
[]
def
start_a(self, attrs):
href
=
[v
for
k, v
in
attrs
if
k
==
'
href
'
]
if
href:
self.urls.extend(href)
if
__name__
==
'
__main__
'
:
usock
=
urllib.urlopen(
'
www.xxx.com
'
)
parser
=
URLLister()
parser.feed(usock.read())
usock.close()
for
url
in
parser.urls:
print
url
发表于 2007-12-02 23:13
Don Li
阅读(1116)
评论(0)
编辑
收藏
引用
只有注册用户
登录
后才能发表评论。
<
2007年12月
>
日
一
二
三
四
五
六
25
26
27
28
29
30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
导航
首页
发新随笔
发新文章
联系
聚合
管理
统计
随笔: 42
文章: 0
评论: 12
引用: 0
常用链接
我的随笔
我的评论
我参与的随笔
留言簿
(1)
给我留言
查看公开留言
查看私人留言
随笔分类
(32)
Python(26)
(rss)
搜索技术(6)
(rss)
随笔档案
(42)
2011年11月 (1)
2011年9月 (1)
2010年12月 (1)
2010年5月 (2)
2008年12月 (1)
2008年9月 (1)
2008年7月 (1)
2008年5月 (3)
2008年3月 (8)
2008年2月 (6)
2008年1月 (4)
2007年12月 (13)
文章分类
Python
(rss)
最新随笔
1. Twisted中启动子进程及进程间通信方式
2. 关于测试Python不释放内存的测试代码
3. TCP数据包分片机制详解
4. 顺着兴致,再罗嗦两句吧
5. Nginx + CodeIgniter PATH_INFO的config(N久没有写博了)
6. VS 2005中实现对Python 2.5.2的模块扩展实验
7. Python项目的文档化开发
8. 最大公约数算法
9. linux下文件权限参数的解释
10. 用来做搜索日志负载测试的一段脚本
最新评论
1. re: 最大公约数算法
def gcd(a, b):
if b == 0:return a
return gcd(b, a % b)
--廖文良
2. re: 让putty支持中文输入和显示
还是乱码。。。。
--alqaz
3. re: 让putty支持中文输入和显示
确实有作用,非常棒!非常感谢
--书痕
4. re: Python线程编程
写得蛮好的-----
--lonely-fly
5. re: 让putty支持中文输入和显示
非常感谢!以前我用SecureCRT,刚换PUTTY没几天,不太熟悉,就遇到中文不嫩显示的问题。谢谢提供这样好的文章,让我马上解决问题。谢谢分享。
--Jessie
阅读排行榜
1. TCP数据包分片机制详解(11818)
2. 最大公约数算法(7581)
3. 让putty支持中文输入和显示(6556)
4. linux下crontab定时执行任务(5229)
5. Python线程编程(4085)
评论排行榜
1. 让putty支持中文输入和显示(5)
2. Python线程编程(2)
3. Python基础笔记摘要(2)
4. 从源码在同台linux服务器上安装2个MySQL心得(1)
5. 最大公约数算法(1)