当前位置:首页 > 搜索引擎核心技术
  •  搜索引擎核心技术详解4—索引压缩

    搜索引擎核心技术详解4—索引压缩

    对于海量网页数据,为其建立倒排索引往往需要耗费较大的磁盘空间,尤其是一些比较常见的单词,其对应的倒排列表可能大小有几百兆。如果搜索引擎在响应用户查询的时候,用户查询中包含常见词汇,就需要将大量的倒排列表信息从磁盘读入内存,之后进行查询处理给出搜索结果。由于磁盘读/写速度往往是个瓶颈,所以包含常用词的用户查询,其响应速度会受到严重影...

    webrank webrank 2024-01-22
    21 0
  • 搜索引擎核心技术详解10—网页去重

    搜索引擎核心技术详解10—网页去重

    网页去重时机一般在爬虫新抓取到网页后,对网页建立索引前。一个典型的去重算法由特征抽取、文档指纹生成和相似性计算3个关键环节构成。能够快速处理海量数据是搜索引擎对去重算法的内在要求,去重算法设计必须兼顾准确性和运行效率,在两者之间取得平衡。4种典型的去重算法:Shi gli g 算法、I-Match 算法、SimHa h 算法、S otSig 算法。看似迥异,...

    webrank webrank 2024-01-22
    15 0
  • 搜索引擎核心技术详解8—网页反作弊

    搜索引擎核心技术详解8—网页反作弊

    作弊与反作弊相生相克,只要作弊存在经济利益,两者斗争一定会持续。常见的作弊方法包括:内容作弊、链接作弊、隐藏作弊和We 2。0作弊。通用反作弊手段大致划分为以下3种类型:信任传播模型、不信任传播模型和异常发现模型。纯粹用技术手段目前无法彻底解决作弊问题,必须将人工手段和技术手段相互结合,才能取得较好的反作弊效果。网页反作弊是目前所有商业搜索引擎需要解决的重...

    webrank webrank 2024-01-22
    24 0
  • 搜索引擎核心技术详解6—链接分析

    搜索引擎核心技术详解6—链接分析

    链接分析在搜索引擎搜索结果排序中起到非常重要的作用。绝大部分链接分析算法建立在随机游走模型和子集传播模型基础之上。PageRa k和HTS算法是最重要且基础的两种链接分析算法,很多链接分析算法是对这两种方法的改进。SALSA算法是目前效果最好的链接分析算法之一,其融合了HT 算法与查询相关的特点,以及 PageRa k算法的随机游走模型。主题敏感 PageR...

    webrank webrank 2024-01-22
    33 0
  • 搜索引擎核心技术详解5—检索模型与搜索排序

    搜索引擎核心技术详解5—检索模型与搜索排序

    检索模型是搜索引擎排序的理论基础,用来计算网页和用户查询的相关性。几种常用的检索模型包括:布尔模型、向量空间模型、概率模型、语言模型及最近几年兴起的机器学习排序算法。目前大部分商业搜索引擎采用概率模型作为相关性排序模型,而BM25则是目前效果最好的概率检索模型。精确率和召回率是评价检索系统的常用指标,而对于搜索引擎来说,精确率尤为重要。可以将检索模型看做是:...

    webrank webrank 2024-01-22
    27 0
  • 搜索引擎核心技术详解3—搜索引擎索引

    搜索引擎核心技术详解3—搜索引擎索引

    倒排索引是搜索引擎用来快速查找包含某个单词的文档集合的数据结构。倒排索引由单词词典和所有单词对应的倒排列表构成。倒排列表由倒排列表项构成,一般倒排列表项包含文档ID、单词出现次数和单词在文档出现位置的信息,而文档ID则采取文档编号差值方式编码。3种常用的建立倒排索引的方法是:两遍文档遍历法、排序法、归并法。常用的索引更新策略有4种:完全重建策略、再合并策略、...

    webrank webrank 2024-01-22
    16 0
  • 搜索引擎核心技术详解2—网络爬虫

    搜索引擎核心技术详解2—网络爬虫

    从爬虫设计角度讲,优秀的爬虫应该具备高性能,好的可扩展性、健壮性和友好性。从用户体验角度考虑,对爬虫的工作效果评价标准包括:抓取网页覆盖率、抓取网页时新性和抓取网页重要性。抓取策略、网页更新策略、暗网抓取和分布式策略是爬虫系统至关重要的4个方面内容,基本决定了爬虫系统的质量和性能。 通用搜索引擎的处理对象是互联网网页,目前网页数量以百...

    webrank webrank 2024-01-22
    24 0
  • 搜索引擎核心技术详解1—搜索引擎及其技术架构

    搜索引擎核心技术详解1—搜索引擎及其技术架构

    1、搜索引擎为何重要搜索引擎依托于互联网,互联网的蓬勃发展是搜索引擎产品与技术逐步成熟的大背景。离开互联网,搜索引擎将无从谈起。1)互联网的蓬勃发展20世纪90年代初期是互联网后期获得大规模发展的起爆点,之所以如此,是有其技术背景和社会背景的。2)商业搜索引擎公司的发展1995年是搜索引擎商业公司发展的重要起点,其对应的背景是:互联网上的We 站点数量首次超...

    webrank webrank 2024-01-22
    26 0

没有更多内容

最新文章