 学员
网站:自考365
UID 87513
精华
0
积分 2
帖子 1
经验 1
金钱 0
鲜花 0
阅读权限 10
注册 2008-9-21
状态 离线
|
|
|
给你找一篇论文看看合用不?
海量Web信息搜集系统优化设计 毕业设计指导网 计算机网络毕业设计
论 文 摘 要
本文首先由WWW的起源和发展导出搜索引擎技术的出现和发展。北大天网是这类技术在中国的最早的成功产品之一,本文将大体介绍其体系结构和技术特点。
搜集端(crawler)是天网的主要模块之一,它的搜索速度、获取网页质量是评价搜索引擎好坏的主要指标,是检索端的工作的基石。如何更快,更好的抓取网页是本人毕业设计的工作目标。在介绍完搜集端现有的体系结构之后,本文从搜索导向、相似网页、相关度权值给定三个方面阐述它的优化策略,作为本文的重点。
最后,本文试图指出现有系统的处理能力极限和瓶颈,并在此基础上作新的体系结构的探讨。
关键词:
搜索导向,replicas-finding, crawler , URL ordering
第一章 背景介绍§1.1 WWW的起源和发展WWW(World Wide Web)起源于1989年欧洲粒子物理研究室(CERN)。WWW的最初计划是由CERN的物理学家Tim Berners-Lee于1989年3月提出的,第一个原型(基于文本)于18个月后运行。
WWW的核心技术是超文本和超媒体。通过将文本、图形、图象、音频、视频等信息的有机结合,给人们提供了丰富的信息表示空间。在十多年的时间里,WWW的信息容量巨增,根据NEC研究院在《自然》上发布的数据[3],截止到1999年2月,Internet上共有网站16.0M个,其中公开提供WWW服务的网站280万个;共有WWW网页大约8亿页,这些网页包含了15T字节的数据。按照2000年4月在波士顿举行的第5届搜索引擎年会的会议报告[4],我们可以知道现今的网页数目已经超过了10亿页。
WWW在1994年登陆中国,在到现在仅仅6年的时间里发展速度惊人。根据CNNIC(中国互联网络信息中心)在2000年1月的统计信息表明[5],中国已有上网计算机350万台,其中WWW站点15153个;上网人数890万。关于网页的数目没有具体的统计数据,但根据《科学》杂志上提供的集合估计法[2],通过中国几个主要搜索引擎获得的搜索数据(天网、新浪、搜狐、网易),我们可以估计到当前中国拥有的网页数已经超过1000万页。
§1.2 搜索引擎的出现和发展面对浩瀚的WWW信息资源,用户在感到进入信息社会的兴奋之后,立刻觉得不知所措,太多的信息使我们很难迅速定位我们真正需要的信息,而跟随超链在WWW上漫游则会浪费大量的时间,而且很可能徒劳无功。因此,人们迫切需要有效的信息发现工具来为他们在WWW上进行导航。
在1994年,第一代搜索引擎出现了,例如Lycos, Infoseek, AltaVista和Exite。这时,它们还处在研究阶段,数据量少,检索速度慢是它们的突出缺点。最近这几年里,搜索引擎技术有突飞猛进的发展,出现了AltaVista,Inktomi ,Google ,Inktomi的Directory Engine ,Inktomi , FAST, Northern Light 等成熟的搜索引擎产品,它们日趋变的好用,成为WWW用户必不可少的工具之一。
合用的话加我密我,我qq:595868262 送你一篇
|
|
|