登陆注册
48710800000071

第71章 科普搜索的研究与实现(2)

五、实验验证及比较分析

系统选用Java作为开发语言,使用开源的MySql数据库和Eclipse集成开发环境、resin服务器以及JSP技术最终完成系统的开发和部署。

1.实验验证

为求检索效果鲜明,本文设计实验与Google进行了查询效果对比。实验描述:首先,用机器人抽取百度百科开放分类的自然类别的全部词条作为科普词条测试集;其次,随机从词条中选取500个词条作为一次实验的实验样本;再次,分别以相同词条查询科普深度搜索引擎和Google,统计两者查询结果中百度百科词条首页出现的概率。累计做五次实验,实验结果

DSEPS科普深度搜索引擎简称(The Deep Search Engine of Popular

Science)与通用的搜索引擎如百度、Google相比,系统具有以下特色:

(1)在科普领域检索效果更专业化,适用于对检索科普知识有专业需求的用户。

(2)适用于多种行业信息搜索,具有较强的针对性,使用不同的网页分类训练集,训练网页分类信息抽取机器人后可用于多种专业的情报信息的自动搜集、分析和检索。

(3)具有实时性。对深网的信息集成是一种实时的信息检索机制,可以在一定程度上缓解传统搜索引擎因url失效所致的一系列问题。

2.相关工作比较分析

主题搜索引擎面向某一特定的专业领域,保证了对该领域信息的完全收录与及时更新。

常用的主题搜索爬行策略主要有:(1)人工预选策略即为此策略;(2)基于文字内容的启发策略,主要包括:Best first search方法、Fish search方法、Shark search方法就是采用Fish方法;(3)基于Web超链图评价的方法,主要的爬行算法是Back-Link和Page-Rank。文献就采用了Page-Rank,而文献采用的是改进的Page-Rank。

页面主题相关性的判断,即判断一篇网页是否与主题相关。目前常用的方法是基于关键词的向量空间模型(VSM)算法,就是采用这种算法。此外,基于分类器的方法也越来越多地被应用到主题相关性判断中,有关实验结果表明,使用主题分类器来指导网络爬虫爬行主题相关网页的效果要好得多。Chakrabarti等人第一次提出基于朴素贝叶斯分类模型引导主题Web爬虫,采用基于类中心分类法的分类器,文献采用的是Widrow-Hoff分类器,采用了Rocchio算法作为分类器的基本算法,则采用了距离分类器,本文选择了文本分类技术中效果较好的SVM分类器。

主题网络爬虫覆盖度的提高,主要指穿越与主题无关的网页得到与主题相关的网页。目前隧道穿越技术(Tunneling)正是在这个方向上的研究。隧道的穿越问题被公认为主题爬行中的困难问题,在相关论文中讨论较少。Donna Bergmark等人研究得出从一个主题相关网页到另一个主题相关网页的路径对后继爬行具有指导作用。PantPant,G.,P.Srinivasan,and F.Menczer.“Exploration versus Exploitation in Topic Driven Crawlers”等人采用了一种利用单个贪婪参数和Best-N-First方法来控制爬行算法的探索过程。将隧道分为灰色隧道(Grey Tunneling)和黑色隧道(Black Tunneling)两种类型分别给出爬行方式。本文从搜索领域深度着手,采用深网信息集成技术扩大搜索范围。

与以上工作比较,本文研究工作的主要特点在于:(1)在页面主题相关性判断上,采用基于SVM分类模型的分类器,分类准确率达90%以上,大大提高了主题分类机器人的爬准率;(2)在领域覆盖范围上,首次将领域深度考虑到搜索范围内,利用深网信息集成技术采集科普领域深网信息,深化了领域搜索范围;(3)实时性,本文在深网信息集成部分采用了实时的设计方案,根据用户输入查询条件实时进行采集并快速返回查询结果,有效地缓解了主题爬虫链接失效所带来的问题。

六、结束语

本文综合运用主题搜索引擎技术和深网信息集成技术设计并实现了科普深度搜索引擎,其中主题搜索部分针对科普领域信息的特点,设计出人工干预与先采集后过滤相结合的主题搜索引擎信息采集策略,采用基于SVM分类器的主题分类机器人进行数据采集。深网信息集成部分采用基于网页结构分析的表单填写技术实现。目前该项目正在建设中,本设计方案还有待进一步验证和完善。进一步要做的工作是:(1)扩大深网集成规模,提高实时查询效率;(2)进一步优化爬行策略,将url链接相关性预测添加到爬行策略中,指导主题分类机器人爬行;(3)进一步提高分类准确率,一般认为html的结构对文本特征有指向作用,将其添加到特征提取的权值计算中,能提高对网页的分类准确率。

同类推荐
  • 组态软件控制技术

    组态软件控制技术

    监控组态软件是完成数据采集与过程控制的专用软件,它以计算机为基本工具,为实施数据采集、过程监控、生产控制提供了基础平台和开发环境。本书从应用角度出发,详细介绍了组态软件应用程序的开发过程。对窗口界面编辑、动画链接、实时和历史趋势、安全机制、I/O设备连接,以及生产应用等内容都做了非常详细的介绍。MCGS是优秀的监控组态软件之一,它功能强大、使用方便,可以非常容易地实现监视、控制、管理的各项功能,并可提供软、硬件的全部接口,方便、快速地进行系统集成,构成不同需求的数据采集与监控系统。本书可作为高等学校计算机应用、自动控制、电子技术、机电技术专业的教材,同时还可作为相关专业工程技术人员的自学用书。
  • 纵横于天地之间——互联网络技术

    纵横于天地之间——互联网络技术

    本书告诉你:不管你是谁,只要生活在当前的时代,你一定知道电话,知道电脑,知道上网……知道许许多多关于电子、关于计算机、关于网络的话题,这就是网络时代。网络的话题可多了:它是怎么来的?什么是“蜘蛛网”?网络的过去和现在,上网的方法,如何使用网络,互联网的安全,网络有“陷阱”吗?网络有“瘾”吗?网络文化和未来又是怎样的?到书中去找答案吧!
  • 信息安全

    信息安全

    我们不得不看到,全球信息化发展,使信息安全成为维护国家安全的重要屏障,信息安全问题正在为国与国之间带来新的制约关系。当然,这只是我们强调信息安全极端重要性的一个原因。事实上,信息安全已经上升为国家安全的重要组成部分,这是信息时代国家安全的明显特征,也是很多国家的共识。但与其他国家安全元素不同,如果脱离信息化发展的环境,“信息安全”只是一个抽象的目标,它要通过对国家的政治、经济、文化等方面的影响体现其对国家安全的意义,并以保障信息化发展为目标取向。因此,我们说信息安全是信息时代国家安全的基石。
  • 如何选购电脑

    如何选购电脑

    本书以问答的形式介绍了选购电脑的基本知识。内容包括:电脑的组成、选购电脑的技巧、主机的部件构成、主板的主要类型、CPU的性能指标等。
  • 我看电商

    我看电商

    本书是作者近30年从事零售及电子商务管理的总结和分享。近年来电商行业在中国迅猛发展,2012年网络零售市场规模达到13,000亿人民币,诞生了淘宝、天猫、京东、当当、凡客、唯品会……等一大批全新的网络公司,电子商务正在日益深入的影响着越来越多人的生活。如今这位自称跨界老兵的电商操盘手第一次全方位剖析电商风云,细说中美电子商务发展的不同路径,评点国内各大电商企业的是是非非,详解其中的融资、模式、运营、效率……个中经验,毫无保留的娓娓道来,笔触至深,让人不禁掩卷沉思。
热门推荐
  • 末世生存之无人生还

    末世生存之无人生还

    数百年后,人类研发出一种新型药物,能够治疗癌症,但药物的成分却没有这么简单
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 王爷是个软饭男

    王爷是个软饭男

    初见,她瞧他俊俏风流,强买强卖,忍不住坐地起价。再见,抓她查案、熏屋子、清除对手。见他嗜血发狂,她瑟瑟发抖:再也不见!谁知?一朝成为他的王妃,当家作主,王爷乖乖吃起了软饭。洞房花烛夜,轩辕珀急切推开洞房门,映入眼帘的却是:夕颜自己揭了喜帕,脱了凤冠霞帔盘腿坐在床上点算嫁妆——堆积如山银票、地契、田产。轩辕珀看着自己的小财迷王妃,笑道:“本王有幸,竟娶了一位富可敌国的王妃,看来日后跟着王妃吃软饭即可。”
  • 邪君侯

    邪君侯

    少年携带一套三国杀异界纵横这是一本改朝换代的架空小说!仁德之师,不过梦幻泡影-刘禅
  • 谁说我家徒弟是面瘫

    谁说我家徒弟是面瘫

    姜淮挽其人,天生面瘫脸,常常心口不一。作为一国太子,且还是一位模糊了性别的太子,只有她的父帝、母后知道她是女子,额,她一直以为自己是一个没有发育完整的“少年”。于是,这个少年出于‘自(借)卑(口)’【其实是懒】常不与他人接触。但是呢,一次与好友的发现打破了平静的生活。奉命与好友乔装成普通人前往帝国学院。姜淮挽做梦也没想到自己的师尊是一个话痨,还是一个看起来翩翩君子实则是一个痞子的二货。——我于地狱归来,见君青衫依旧,心中满是喜悦,愿君不复当日,盼君鲜衣怒马,我仍心悦于君。淮挽,我…愿你一世安好!——牧南昔【面瘫徒弟与话痨师尊携手一生】
  • 无限作死使劲变强

    无限作死使劲变强

    洛小天,出生在一个弱肉强食的世界。他在一个宗门当杂役。忍辱负重三年。最后获得了,无限作死系统。从此咸鱼大翻身。看他今朝如何平步青云,走上人生巅峰。
  • 终极恶女钟声幸福

    终极恶女钟声幸福

    当某女睁开眼发现自己在医院,然后听到一阵乱动,脑子里面一大堆记忆出现,晕倒了。她有终极一家跟终极宿舍里面夏美的全部记忆,然后记忆里面的女孩发现自己变成小孩了,就顶着两岁的身体离家出走,遇到跟修长得一样的唯一就赖上,然后唯一带回去后被啊天王喜欢上变成王查理的双胞胎姐姐,啊天王收下的女儿。后来又有了终极恶女凯特的记忆,发现这就是凯特小时候的长相,再次离家出走。现在又多了一点记忆,就是某女醒来后的记忆,发现自己居然穿越到终极系列的凯特身体里,只是这个凯特的脑袋里面记忆太多了。
  • 哮喘门

    哮喘门

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 不灭劫

    不灭劫

    世上谁人无死?即使共存于天地,也有人生如梦,岁月如刀,万千繁华随历史埋葬的悲凉!万年前,众神大战,鲜血染红了苍天,尸骨堆满了大地,无数的强者化作历史的尘埃,五大势力分崩离析,天界也支离破碎,只留下一片片废墟,在诉说着昔日的悲与伤。原天界幸存之人,只得居住在了凡俗界。万年后,一个不知道自己身世的小孩,在意外中遇见了一位被镇压的神秘老人,于是,他走上了修行之路,要去去揭开一层层神战背后的面纱。这到底是宿命的轮回,命运的安排,还是不灭的执念,不屈的呐喊?就让我们伴随着古铭的脚步,去走向一个充满热血的仙侠世界,在一层层历史的尘埃中,探听万年的悲歌。
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!