关于
”认真编程“分类写的是一些编程经验,无相关知识将无法看懂。
这几个月我们的商城建设起来了,“哈尔滨购物网”成了名副其实的购物网。 这时间里相关部门就开始研究其他的购物网,比如当当,卓越。他们想要一份以excel形式存储的包含上述网站的商品信息以便统计、分析。当然卓越、当当没有什么理由把数据都给我们,于是我们想到了“偷”。于是我把周杰伦的七里香放进cd-rom驱动器开始了“盗窃”。
一切从 www.baidu.com开始,在搜索的文本框里输入“asp 小偷”很多的信息就被检索出来了。我进入了一个叫“ASP小偷(远程数据获取)程序入门教程”的标题:
总结了文章的内容得出结论,“偷”其实就是通过微软的XMLHTTP这个COM组件进行的。还好XMLHTTP这个词并不陌生。
我又在baidu上检索到“xmlHTTP技术资料"这条信息。
XMLHTTP能干很多事情,但是在这里我们要它干的只是:将指定的网页的HTML代码读出。 如果通过程序读出对方(当当、卓越)的相应HTML代码就好办了,因为商品数据就存储在那庞杂的代码中。
这很简单,我接着写了如下函数:
function getBody(infopageurl) '功能:取得指定网址的html代码 '参数:infopageurl 网页地址
if infopageurl<>"" then dim xmlHttp set xmlHttp=server.createobject("MSXML2.XMLHTTP")‘声明XMLHTTP对象
xmlHttp.open "GET",infopageurl,false xmlHttp.send’上面这两就句就是调用的形式,调用后程序会堵塞在send这句,直到内容被返回。 getBody=BytesToBstr(xmlhttp.responsebody,"GB2312")‘然后通过xmlhttp.responsebody属性将返回内容读出,这里用到一个BytesToBstr函数将在后面说明。
set xmlHttp=nothing end if end function
关于BytesToBstr,开始返回的结果没有经过这个函数处理,结果返回的汉字是一堆乱码。什么原因就不用深究了。我到 www.chinaz.com下载了几个”小偷’的程序,发现里面不约而同的都含有这个函数。大概就是用adodb.stream对结果字符进行了转换。我把它加到我的函数里结果就正常了。
Function BytesToBstr(body,Cset)
dim objstream set objstream = Server.CreateObject("adodb.stream") objstream.Type = 1 objstream.Mode = 3 objstream.Open objstream.Write body objstream.Position = 0 objstream.Type = 2 objstream.Charset = Cset BytesToBstr = objstream.ReadText objstream.Close set objstream = nothing
End Function
html代码取回来了,我们怎么从中取得需要的数据?答案是正则表达式。
正则表达达式就象是一种简单的语言。它用一些特殊的字符模糊地描述一个字符串。然后可以通过程序去检查一个字符串中是否包含你描述的那种字符串,还可以将你描述的字符从一个字符串中取出,这里我们就是利用这个功能来获取需要的数据。
举起例子比较容易理解:
* 匹配前面的子表达式零次或多次。例如,zo*(正则表达式) 能匹配 z 、 zoo、zooooo、zoooooooooo + 匹配前面的子表达式一次或多次。例如,zo+ 能匹配 zo 以及 zoo,但不能匹配 "z"。 \d 匹配一个数字字符。等价于 [0-9]。 例如, \d+ 可以匹配 1,123,9876
? 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个 "o",而 'o+' 将匹配所有 'o'。
下面要做的就是分析商品数据在html代码中存放的特征,然后写出正则表达式将其取出。 例如,joyo商品的市场价格数据在html代码中是这样存储的“市场价:15.00元”,要做的是把以“市场价:”开头,“元”结尾之间的数值取出。下面函数就实现了这个功能:
function Topic(sHtmlcode) '功能:返回joyo.com商品页面的市场价格数值 '参数:shtmlcode 商品页的html代码
Set regEx = New RegExp'建立使用正则表达式的对象
regEx.IgnoreCase =true regEx.Global = True regEx.Pattern ="市场价:(.+?)元"设置表达式
Set Matches = regEx.Execute(shtmlcode)'执行表达式将所有符合描述的字符传存放到一个集合里。
for each sMatch in Matches Topic=sMatch.SubMatches(0)'submatches(0)带表第一个子匹配,既小括号中的数值 exit for next set regEx=nothing end function
其他的数据也用同样的方法取得。写正则表达式是一个很有趣而且很复杂的工作。期间我遇到写不出来的,就去CSDN.net的论坛去提问,总是可以得到帮助。
还有一点要思考的是:是不是这个表达式对所有的商品页面都适用。如果所有的商品都是用一个asp程序显示那就可以,但是joyo.com不是,它的不同分类中html代码的格式是不同的,所以我们要写几个正则表达式来分别匹配不同形式的数据(比如有些页面中市场价格是这样存储的“市场价:<b>15.00</b>元")。
有了这些函数我们就可以用给定的商品网页地址取得相应的数据了。但是这些网站的商品一般都有万余种,如何获取这些地址就不是那么容易了。这个过程因站而异,这也是真正需要“小偷”智慧的工作之一。
拿joyo.com进行分析。进入首页之后我发现里面有个”产品搜索“,选择“所有类别”,关键字置空,点击那个”GO!"检索出了21684条记录。这应该就是joyo.com的所有商品信息了,来的太容易我简直不敢相信。
检索页上包含有10条商品的连接,用正则取得后,再取得转向后10条记录(即下一页)的连接。如此循环就会得出所有商品信息。我用access建了一个表来存放它们。编好了程序挂到机器上就睡觉去了。
第二天兴奋地来到机器上一看,发现记录只有700多条。很郁闷,程序我没加容错处理因为我发现vbscript的错误处理比vb中的还要简略。似乎连on error goto LABEL都不可以使用。我在检索页点来点去希望找出错误的根源,结果发现当其中limitBefore大于750的时候后面就没有记录了。原来是这样。joyo.com的程序员没有让我们这么容易的得到所有数据。这条路是不能走了。
这是一些其他的主要分类标识: bkbk 图书 bkmu 音乐 itit 数码 bkbh 日用 itrj 数码产品 bkgm 游戏 bkys 影视
只要我遍历所有的prodid然后找出存在的商品页面就可以了。然而怎么判断该prodid是否存在呢,我在地址栏上胡乱打了一个prodid返回了出错结果页面。
出错页上有一张红色的“警钟”图案,我估计正常的页面上是不可能包含此图片的。于是以此作为判断prodid是否存在的依据。遍历所有prodid,如果在返回结果html中发现“警钟”图片则不做处理,否则就从页面中取出需要的信息。
遍历6位的prodid是个漫长的过程,粗略的估算,如果每个操作用时1秒的话,则最少需要999999次循,环即999999秒(999999/3600=277多小时)。这显然是太长了,于是我又做了一些优化,发现第一位数字只在0-5之间变化,第二为数字只在0-1之间变化。这样大大的缩短了时间(519999/3600=144多小时),实际的时间更乐观。
经过几天的调试终于把图书分类下载完了,接下来我又接着优化程序,做一个更有效率的“小偷”。 |