当前位置:首页 > 知识教程 > 搜索引擎 > 正文

搜索引擎发展简史(搜索引擎的起源与发展)

    没有搜索引擎的互联网是一片蛮荒之地,一个个网站就像酒埋深巷,无人问津。需求催生技术,搜索引擎应运而生。

    搜索引擎的发展推动了社会的进步,可以说,在互联网发展的过程中,搜索引擎给我们的生活带来了极大的便利。

    现如今,搜索引擎的定义已经不仅仅是局限于狭义上的搜索引擎本身了,除了百度、谷歌这样的搜索引擎,抖音、小红书等应用软件里的搜索,都属于广义上的搜索引擎。小到一道菜的做法,大到飞机制造原理都需要一定程度上借助搜索引擎。想必大家对搜索引擎的发展史也都充满好奇,今天我就来和大家简单介绍一下搜索引擎的发展历史。

搜索引擎发展简史(搜索引擎的起源与发展)

1、搜索引擎出现的必然性:

    随着互联网的发展,搜索引擎的出现是必然的。就像传统图书馆一样,收藏的书籍、文件多了,必然出现管理、查找困难,索引和搜索就成为必需的了。实际上,搜索引擎原理在很大程度上源于传统文件检索技术。网上资源数量远超出我们个人所能想象与掌控,没有搜索引擎,我们几乎无法有效利用这些资源,也就没有互联网的今天。

2、搜索引擎的起源:

    搜索引擎起源1990年,是由加拿大麦吉尔大学(McGill University)计算机学院里的众多师生开发出来的。当时只是诞生了搜索引擎的模型-Archie,人们开始利用FP来进行数据共享。当时的Archie已经有了自主识别并搜集和处理上传至FTP上的信息的能力,并能够有效地通过不同FTP下的文件信息进行搜集。

    但当时的搜索引擎只是一个模型还不完善,如果需要查找,必须要输入精确至百分之百的名称,才能够将查找信息展现出来。这种模式通过不断演变保留了下来,甚至运用到了SEM当中,即精确匹配。只有当用户搜索的信息与SEM推广的信息完全一致的时候才会展现出来。

    Archie诞生的时候还没有出现HTML,所以当时只是作为一个模型进行测试,是不能够通过互联网进行数据共享。但是这种模式给予了后人莫大的启发,其工作原理和工作方式也被保留了下来。Archie当时就已经能够做到自动搜集信息资源,建立索引目录,并展现出来。这种模式与现在的搜索引擎的工作方式是完全一样的。

    但严格意义上讲,Archie并不是一个并非一个真正的搜索引擎,因为它只能搜索FTP文件资源,并不能获取诸如网页等其他类型的文件资源,同时它没有机器人(Robot)程序,不能快速有效的抓取网络上的内容,它只是一个ftp搜索引擎。在1993年第一个利用HTML网页之间的链接关系来检测万维网规模的机器人(Robot)程序“World Wide Web Wanderer”才真正诞生。1994年1月,Infoseek创立,它开始允许站长提交网址。

3、搜索引擎的发展史:

第一代:分类目录时代

    1994年第一代真正基于互联网的搜索引擎Lycos诞生,它以人工分类目录为主,代表厂商是Yahoo,特点是人工分类存放网站的各种目录,用户通过多种方式寻找网站,现在也还有这种方式存在。

    不知道大家是否在自己的搜索引擎首页是否有设置过导航网站这个网址作为自己的首页呢?其实这个网址就是搜索引擎第一代的代表。我们可以从这个导航网站这个网站里面看到,里面几乎都是一些分类网址,几乎在互联网上的,这个网站里面都一应俱全,从这里我们可以看出,这个网站是一个导航网站,也可以说分类目录网站,用户可以从这个分类目录里找到自己想要的东西,这就是搜索引擎第一代。

    1994年4月,斯坦福大学的美籍华人Jerry Yang(杨致远)和David Filo一起创办了Yahoo。Yahoo对目录功能进行了改进,开始支持简单的数据库搜索。它对一切的网站进行人工归类,一般是依照字母顺序摆放网站,自然最初为“A”的网站排到最初为“B”的前面,而有两个A的网站,排在有A和B的网站前面,所以当时有大量的网站以“A”命名。

    1994年7月,卡内基梅隆大学的Michael Mauldin创建了Lycos,Lucos推出了根据查找机器人的数据发现技能,并支撑查找效果相关性排序额,还第一次让查找引擎可以运用网页主动摘要。Yahoo、Lycos这些分类目搜索引擎的诞生开始逐渐体现出其营销价值,搜索引擎优化的思想开始萌芽,当时最重要的任务就是把自己的网站提交给搜索引擎。虽然在这个时期中文网站很少,而且大多数是美国的中文网和在台湾的网站,但是Yahoo显然注意到中文网站的未来,而且迅速有个中文译名“雅虎”

    1995年底,第一个支持自然语言搜索,具备基于网页内容分析、智能处理的能力,并且实现高级搜索语法的搜索引擎(如AND,OR,NOR等)Alta Vista推出,它同时还能搜索新闻群组中的内容,还能搜索图片。

第二代:文本检索时代

    到了这一代,搜索引擎查询信息的方法则是通过用户所输入的查询信息提交给服务器,服务器通过查阅,返回给用户一些相关程度高的信息。这代的搜索引擎的信息检索模型主要包括例如布尔模型、概率模型或者向量空间模型。通过这些模型来计算用户输入的查询信息是否与网页内容相关程度高低,将相关度高的则返回给用户。采取这种模式的搜索引擎主要是一些早期的搜索引擎,例如像Alta Vista、Excite等等。这就是搜索引擎第二代。

    随着网络应用技术的发展,用户开始希望对内容进行查找,出现了第二代搜索引擎,也就是利用关键字来查询,最其代表性最成功的是Google,它建立在网页链接分析技术的基础上,使用关键字对网页搜索,能够覆盖互联网的大量网页内容,该技术可以分析网页的重要性后,将重要的结果呈现给用户。

    中文搜索引擎的起步也不晚,1996年8月,张朝阳成立搜狐的前身“爱特信信息技术有限公司”。1998年2月,爱特信推出搜狐,中国首家大型分类查询搜索引擎横空出世,张朝阳也被誉为“中国互联网第一人”。1998年,世界最大的搜索引擎Google诞生,拉里·佩奇和谢尔盖·布林在斯坦福大学的学生宿舍开发了谷歌,他们发明了一个叫PageRank的网页评级机制,用来判断网页的重要性,使得搜索结果的相关性大大增强。

    1999年,Infoseek公司一位资深华人工程师李彦宏离开了这个搜索引擎公司而驶向北京,他所持有的“超链分析”技术专利,是奠定整个现代搜索引擎发展趋势和方向的基础发明之一,他力图要创立一个“中国人自己”的搜索引擎,次年1月,百度诞生。2004年9月12日,Google推出简体及繁体两种中文版本的搜索引擎,和百度在中国市场分庭抗礼,直到2010年谷歌退出中国市场,百度开始在国内一家独大,后来出现的360,搜狗都没能撼动百度老大地位。

第三代:整合分析时代

    这一代的搜索引擎所使用的方法大概是和我们今天的网站的外部链接形式基本相同,在当时,外部链接代表的是一种推荐的含义,通过每个网站的推荐链接的数量来判断一个网站的流行性和重要性。然后搜索引擎再结合网页内容的重要性来和相似程度来改善用户搜索的信息质量。这种模式的首先使用者是google,google不仅为首次使用并且大获成功,这一成就在当时引起了学术界和其他商业搜索引擎的极度关注。后来,学术界以此成就为基础,提出了更多的改进的链接分析算法。大多数的主流搜索引擎都在使用分析链接技术算法。这就是第三代搜索引擎

    将用户输入关键字,反馈回来的海量信息,智能整合成一个门户网站式的界面,让用户感觉每个关键字,都是一个完整的信息世界。而不是第二代一样返回一个清单,整个清单夹杂着大量用户不关心、且没有分类的链接。第三代搜索引擎的典型特征就是:智慧整合第二代返回的信息为立体的界面。让用户能轻易地一眼进入到最相关的分类区域去获取信息。

    随着网络信息的迅速膨胀,用户希望能快速并且准确的查找到自己所要的信息,因此出现了第三代搜索引擎。相比前两代第三代搜索引擎更加注重个性化、专业化智能化使用自动聚类、分类等人工智能技术,采用区域智能识别及内容分析技术,利用人工介入,实现技术和人工的完美结合,增强了搜索引擎的查询能力。第三代搜索引擎的代表是Google,它以宽广的信息覆盖率和优秀的搜索性能为发展搜索引擎的技术开创了崭新的局面。

第四代:用户中心时代

    第四代,也就是我们所用的搜索引擎技术也是互联网上面用的最普遍的。主要是以用户为中心。当客户输入查询的请求时候,同一个查询的请求关键词在用户的背后可能是不同查询要求。例如用户输入的是“苹果”,那么作为一个想要购买iPhone的用户和一个果农来说,那么要求就是大大的不一样。甚至是同一个用户,所查询的关键词一样,也会因为所在的时间和所在的场合不同而返回的结果不同的所有主流搜索引擎,都在致力于解决同一个问题:怎样才能从用户所输入的一个简短的关键词来判断用户的真正查询请求。这一代搜索引擎主要是以用户为中心。这就是第四代搜索引擎。

    移动设备的使用者,即使不向移动搜索互联网授权任何特征信息,移动搜索互联网仍然可以通过移动设备使用者在的搜索时的大量特征,比如上网的时间习惯,操作习惯,内容归类去逐渐勾勒出这人使用者的特征信息,这种“推测式”算法的可能性也是由于移动设备具有唯一性、随身性而产生的。这好比是警察可能通过“嫌疑人”的行为习惯,去推测出他的“作案动机”与“体貌特征”一样。那么,这些使用者的蛛丝马迹,都是未来移动互联网搜索引擎进行“商业数据挖掘”的巨大宝藏。

    移动互联网搜索的必然使命,就是:提供精准到个人的搜索。可以说前三代搜索引擎,都是基于PC互联网的搜索,而精准到个人需求的移动互联网搜索,为“第四代搜索引擎”。

    从分类目录到文本检索再到整合分析,搜索引擎在不断进化升级,它的核心都是让查询的用户得到自己真正想要的信息,同一个查询的请求关键词在用户的背后可能是不同查询要求,在科技发展的今天,搜素引擎可以从多方面分析出用户输入的一个简短关键词背后究竟是什么需求,这就是大数据时代以用户为中心的第四代搜索引擎,同时也在向物联网为核心的第五代搜索引擎前进。

第五代:生活生态圈搜索

    第五代搜索引擎应该是基于物联网的搜索,物联网搜索拥有更广阔的搜索空间,能预测到物联网一个最典型的应用就是:找东西!比如远程看管小孩、老人,或搜索走失小孩,包括精确到厘米的GPS定位,比如你去一个陌生的地方,找厕所,找窗口,甚至找警察。同时,不仅仅是你找东西,甚至还有可能东西找你,比如泊车后超过某个时间点,让车主动呼叫你,饭煮好了,电饭煲呼叫你,提前打开的空调使用室温保持到预定温度后,空调呼叫你等等。

    未来的搜索引擎,更多的是大数据和人工智能及物联网,共同相结合的时代,让人们怎么摆脱手机和电脑,走在路上身边处处是搜索,搜索走进生活,未来搜索引擎不会消亡,只会换一个形势陪伴我们,生活处处有搜索,未来也会产生更多的搜索新体验。

发表评论