当前位置:首页 > 知识教程 > 搜索引擎 > 正文

搜索引擎核心技术详解1—搜索引擎及其技术架构

1、搜索引擎为何重要

搜索引擎依托于互联网,互联网的蓬勃发展是搜索引擎产品与技术逐步成熟的大背景。离开互联网,搜索引擎将无从谈起。


1)互联网的蓬勃发展

20世纪90年代初期是互联网后期获得大规模发展的起爆点,之所以如此,是有其技术背景和社会背景的。

2)商业搜索引擎公司的发展

1995年是搜索引擎商业公司发展的重要起点,其对应的背景是:互联网上的Web站点数量首次超过100万,此时普通用户已经无法依赖手工浏览的方式来获得自己想要的信息。在这一年产生了很多风云一时的早期搜索引擎公司。Yahoo、InfoSeek、Fast Search、AltaVista、Excite等曾经非常著名的搜索引擎公司都创建于1995年。

3)搜索引擎的重要地位

互联网信息量在过去获得了爆炸性增长,信息过载的问题就目前来说非常严重,随着互联网个性化的发展趋势逐步展现,普通用户发布信息的成本越来越低,这个问题将会更加严重。这是搜索引擎相关应用越来越重要的一个基础背景。搜索是目前解决信息过载的相对有效方式,在没有更有效的替代解决方式出来之前,搜索引擎作为互联网网站和应用的入口及处于行业制高点的重要地位只会逐步加强。


2、搜索引擎技术发展史

1)史前时代:分类目录

2)第一代:文本检索

3)第二代:链接分析

4)第三代:用户中心


3、搜索引擎的3个目标

1)更全

2)更快

3)更准


4、搜索引擎的3个核心问题

1)用户真正的需求是什么

2)哪些信息是和用户需求真正相关的

3)哪些信息是用户可以信赖的

对于分类目录式搜索引擎,其重点关注的是信息的可信赖性,因为分类目录内收录的网站经过人工精心筛选,所以具有很强的可信赖性,但是对于用户需求和相关性是不做考虑的,完全靠用户自由浏览来确定。

对于第一代文本检索式搜索引擎,其重点关注的是查询关键词和网页内容的相关性。这种搜索方式假定用户输入的查询关键词就是用户的真实需求,很明显这种假设很难成立。另外,这种搜索方式对于信息的可信度也未做任何识别。

第二代搜索引擎引入链接分析技术,链接关系代表了一种推荐含义,而获得越多推荐的网页其链接分析得分越高,这其实是一种对网页可信度的度量标准。同时,第二代搜索引擎也利用了文本检索模型,来计算查询和网页内容的相关性。所以第二代搜索引擎是综合考虑了信息的相关性和可信性的,但是同样没有对用户需求做关注。

   第三代搜索引擎的重点则是用户的真实需求,其他方面则兼顾了第二代搜索引擎的优点,即第三代搜索引擎同时考虑了3个核心问题。


5、搜索引擎技术架构


搜索引擎核心技术详解1—搜索引擎及其技术架构



发表评论