咸鱼的翻身技术

JAVA/JAVASCRIPT

酒店走访系统开发 Day I

闲得蛋疼,又开始捣腾python了
用这个的主要原因还是烦躁java的无穷无尽的lib导入和配置文件书写,此外就是groovy不成熟导致的冲突

使用py2.6,主要还是因为这个版本的python库成熟,比较适合应用开发部署

酒店走访系统的需求主要是针对公司的销售开发的一个助手,主要是提供以下功能
1,提供某个接入点的酒店列表
2,提供某个拜访酒店的走访信息
3,快速添加走访标记
4,通过邮件补填走访详情

基础数据部分,主要要提供酒店列表,酒店地理数据

酒店列表部分主要要抓取知名站点的网页数据,并形成一个相应的文档数据库

所以现在采用的是 python+mongodb方案

第一天的内容主要是使用htmlparser分析站点信息,基本摸清了htmlparser的工作原理,但是他所提供的功能和自己所需要的还是相差甚远
需要寻找新的分析库

第一个抓取数据代码如下

#-*- encoding: utf-8 -*-
from HTMLParser import HTMLParser
import urllib

class MyHTMLParser(HTMLParser):
    def reset(self):
        HTMLParser.reset(self)
        self.flag = False
    def handle_starttag(self, tag, attrs):
        if len(attrs) == 0:
            self.flag = False
        else:
            for (variable, value)  in attrs:
                if variable == "class" and value == "listbj":

                    self.flag = True
    def handle_endtag(self, tag):
        self.flag = False
    def handle_data(self,data):
        if(self.flag == True):
            print 111

f = urllib.urlopen("http://beijing.cncn.com/hotel/")
test = MyHTMLParser()
test.reset()
test.feed(f.read())

posted on 2010-12-14 15:24 hopesfish 阅读(255) 评论(0) 编辑收藏引用所属分类: python

只有注册用户登录后才能发表评论。

咸鱼的翻身技术

My Links

Blog Stats

常用链接

留言簿

随笔分类

随笔档案

相册

收藏夹

人

手册

搜索

最新评论

阅读排行榜

评论排行榜

酒店走访系统开发 Day I