闲得蛋疼,又开始捣腾python了
用这个的主要原因还是烦躁java的无穷无尽的lib导入和配置文件书写,此外就是groovy不成熟导致的冲突
使用py2.6,主要还是因为这个版本的python库成熟,比较适合应用开发部署
酒店走访系统的需求主要是针对公司的销售开发的一个助手,主要是提供以下功能
1,提供某个接入点的酒店列表
2,提供某个拜访酒店的走访信息
3,快速添加走访标记
4,通过邮件补填走访详情
基础数据部分,主要要提供酒店列表,酒店地理数据
酒店列表部分主要要抓取知名站点的网页数据,并形成一个相应的文档数据库
所以现在采用的是 python+mongodb方案
第一天的内容主要是使用htmlparser分析站点信息,基本摸清了htmlparser的工作原理,但是他所提供的功能和自己所需要的还是相差甚远
需要寻找新的分析库
第一个抓取数据代码如下
#-*- encoding: utf-8 -*-
from HTMLParser import HTMLParser
import urllib
class MyHTMLParser(HTMLParser):
def reset(self):
HTMLParser.reset(self)
self.flag = False
def handle_starttag(self, tag, attrs):
if len(attrs) == 0:
self.flag = False
else:
for (variable, value) in attrs:
if variable == "class" and value == "listbj":
self.flag = True
def handle_endtag(self, tag):
self.flag = False
def handle_data(self,data):
if(self.flag == True):
print 111
f = urllib.urlopen("http://beijing.cncn.com/hotel/")
test = MyHTMLParser()
test.reset()
test.feed(f.read())