1.系统简介
随着Web 应用的不断发展人们发现在Web 应用和传统桌面应用之间存在着连接鸿沟人们不得不重复的将数据在Web 应用和传统桌面应用之间迁移,蓬勃发展的Web 服务技术则正是基于XML 技术的针对这一问题的最佳解决方案。Web服务发现与传统的信息检索有很多相似之处,但前者具有更高的复杂性和实现技术的不成熟性,将有更广阔的应用领域。很自然,Web服务发现问题是一个新的挑战。基于目前的这种状况,开发出一种用于Web服务发现的搜索工具就很意义,而正是在这样的背景下,我们开发出了Web服务发现引擎系统。
1.2设计原理及功能简介
从图1可以看出: 该系统是从互联网上主动发现Web服务,然后在互联网上提供这些Web服务。其包括了三个主要部分:针对Web服务的网络爬虫(WS-Spider),索引系统(Index System),服务查询器(WS-Reascher)。
主要功能: 基于Web服务,来源于Web服务,最终提供Web服务,实现真正意义上的Web服务的自动发现。
2.安装使用说明
建议配置如下:
CPU PentiumIII 1G以上
内存256M以上
硬盘2G可用空间以上
操作系统 WIN200/2003/XP/NT即可(不支持Win95/98/me操作系统 )
注:本系统运行时,需要安装J2EE服务器程序indexJ2EE.war,若要调试还需安装开发环境(其详细见附录。此处,开发环境以MyEclipse为例)。
3.1 登陆及进入主界面
在IE浏览器栏里输入 http://server:port/heritrixProject。进入如下图1:处理链的设置:有Crawl Scope和URI Frontier等参数的设置;运行时参数的设置;抓取任务的运行全过程;运行结果的显示;文件下载至本地的存储过程。
图1 登陆界面
然后输入WebUI的用户名和密码,点击login,就可以进入Heritrix的主界面:
图2 Heritrix的主界面
单击WebUI菜单栏上如下图3“jobs”标签,就可以进入任务创建页面。
图3 任务创建页面
在任务创建页面中,有四种创建方式,如下图4:
包括:1: Based on existing job:以一个已经有的抓取任务为模板,创建抓取属性和URL的列表;
2:Based on a recovery:从以前的状态点设置的标志开始,新的任务从这里继续;
3:Based on a profile:为不同的任务设置一些模板;
4:With defaults:按照默认的方式配置来生成一个任务。
图4 任务创建方式界面
假使你点击With defaults就进入如下图5:在新的任务名中,填写比如“sina_news”,表示要抓取新浪的新闻信息。在Description中填入描述信息;然后在Seeds中写入新浪的网址。这里的Seeds,其实是一个抓取任务的起始点。每次抓取,总是要从一个起始点开始,在得到这个起始点的网页上的信息后,分析出新的地址,把它加入抓取队列中,然后如此循环,直到所有的连接都分析完毕。
图5 输入种子网站
3.2设置抓取时处理链的设置
Seeds下有一排按钮,单击“Models”按钮,就进入了抓取时处理链的页面,如下图6。
图6 抓取时处理链选择页面
其中, Crawl Scope和 URI Frontier是两个最重要的组件。
1:Crawl Scope:用于配置当前应该在什么范围内抓取网页链接;
2:URI Frontier:是一个URL的处理器;
3:Pre Processors:在这个队列中,所有的处理器都是用来对抓取时的一些先决条件进行判断;
4:Select Fetchers:用于解析网络传输协议,如DNS、HTTP等;
5:Extractors:用于解析当前获取服务器的内容;
6:Writers:将抓取的信息写入磁盘;
7:Post Processors:在抓取解析过程结束后,要进行一些扫尾工作。
3.3 设置运行时参数
Seeds下有一排按钮,单击“settings”按钮,进入如下图7所示页面:
图7 抓取配置页面
由于页面内容比较多,所以每个前面提供了个辅助功能,点击“?”可以查看相关帮助。大部分以默认的为主就可以了,第一次需配置好的参数有:
1:max-toe-threads:默认为100,我们往往设置20-50就足够了。
2:http-headers:在这个属性域下,如下图:包括 user-agent:和from需要重新配置,配置为笔者机器上的相关信息。如下图8:
图8 user-agent:和from的配置
单击”Submit job”链接后,如下图,在图的最上方显示了“job created”,表示刚才所设置的任务已经被成功建立。如下图9:
图9 任务创建成功界面
之后,回到“Console”界面上,可以看到任务已经显示出来了,等待我们开始它。并且可以看到当前堆大小为8352KB,已经使用了5484KB,最大的堆内容可以达到65088KB。如下图10:
图10 任务运行界面
此时,单击面板中的“start”链接,抓取任务开始。会出现抓取的速度和时间。如下图11:
图11 抓取的速度和时间显示
在状态栏右侧,是当前的负载,显示了当前活跃的线程数量,同时还统计了Heritrix内部的所有队列的平均长度,如下图12:
图12 负载显示
进入HeritrixProject工程,里面有一个Jobs目录,这里面的内容,就是Hertrix在运行时实时生成的其中有一个mirror目录,里面存储的是爬到的文件。如下图13:
图13 搜索到的文件显示
在浏览器里输入http://server:port/indexJ2EE进入Web服务查询界面,如下图14所示。
图14 输入service得到的查询结果
增加一个查询条件,查谒逻辑选择并且,检索项选择服务名,在检索词下输入e出现搜索提示,查询结果如图16:
图16 输入e时出现提示
图17 组合查询结果
再增加一个查询条件,如图18:
图18 输入h时出现搜索提示
基于Web服务方式的Web服务发现引擎系统是适应Web服务技术发展的需要,适时开发的一款具有特色的软件。友好的用户界面,简便的操作,只需要用户轻轻的一点鼠标,简单的设置几个参数,就能完成往日烦琐工作,节省了时间,提高了效率。我们热诚欢迎广大用户使用基于Web服务方式的Web服务发现引擎系统并长期关注我们的产品。同时,也希望能够对我们的系统提出你们宝贵的意见和建议。我们也会根据用户的反馈信息改进我们的系统,并且会不断的推出新的产品,来满足用户的需求。
最后对所有关心和支持过湖南科技大学知识网格实验室的人和单位表达我们最诚挚谢意!
湖南科技大学知识网格实验室
实验室主页:http://dep.hnust.cn/kg
http://kg.hnust.edu.cn
技术支持:email:xizao2008@126.com
本系统搭建工程中,以安装JDK1.5,JBOSS, MyEclipse5.5为例。
1 JDK安装过程:
1.1下载JDK
点击下列网址进入JDK下载页面:
http://java.sun.com/j2se/1.5.0_13/download.html
1.2 安装JDk
点击安装jdk-1_5_0_13-windows-i586-p.exe,安装过程中可以自定义安装目录等信息,例如我们选择安装目录为D:jdk1.4
1.3 配置环境变量。
1.3.1 开始配置
右击“我的电脑”,点击“属性”,如下图19:
图19 进入环境变量设置界面
1.3.2 进入环境变量设置
选择“高级”选项卡,点击“环境变量”,如下图20:
图20 设置环境变量
1.3.3 设置环境变量
在“系统变量”中,设置3项属性,JAVA_HOME,PATH,CLASSPATH(大小写无所谓),若已存在则点击“编辑”,不存在则点击“新建”,如图21,图22所示
图21 编辑环境变量界面 图22 编辑环境变量界面
JAVA_HOME指明JDK安装路径,就是刚才安装时所选择的路径C:\Program Files\Java\jdk1.5.0_13,此路径下包括lib,bin,jre等文件夹(此变量最好 设置,因为以后运行tomcat,eclipse等都需要依靠此变量);Path使得系统可以在任何路径下识别java命令,设为:C:\Program Files\Java\jdk1.5.0_13\binj;CLASSPATH为java加载类(class or lib)路径,只有类在classpath中,java命令才能识别,设为:.;C:\ProgramFiles\Java\jdk1.5.0_13\lib\dt.jar;C:\Program Files \Java\jdk1.5.0_13\lib\tools.jar%JAVA_HOME%就是引用前面指定的JAVA_HOME。如下图23, 图24,图25所示:
图23 设置环境变量
图24 设置环境变量
图25 设置环境变量
1.3.4 运行测试
“开始”->“运行”,键入“cmd”:
键入命令“java -version”,出现下图26画面,说明环境变量配置成功。
图26 检测安装成功界面
2 MyEclipse安装过程:
2.1下载eclipse
从http://www.eclipse.org/downloads/下载eclipse;eclipse为无需安装的软件,直接可以使用。
2.2 下载MyEclipse
从http://www.eclipse.org/downloads/官方网站上下载MyEclipseEnterprise WorkbenchInstaller_5.1.0GA_E3.2.1.exe;安装时选择正确的eclipse路径即可。之后导入KEY文件即可使用,如下图27:
图27 导入key界面
2.3 导入工程运行
导入工程至MyEclipse中之后,依次点击打开heritrixProject->org ->archive -> Heritrix.java 文件,然后运行即可。
3 JBOSS安装及indexJ2EE部暑
我们选择了JBOSS这个优秀的开源J2EE服务器,JBOSS可以从www.jboss.com上免费的下载,安装好JBOSS后,我们将indexJ2EE.war部署到JBOSS的deploy文件夹中,配置好JBOSS连接MYSQL的数据源,启动JBOSS,打开浏览器,在地址栏中输入http://server:port/indexJ2EE,如果出现了Web服务查询的界面,则表示indexJ2EE.war已经配置好了。