当前位置:首页 > 知识教程
  • 搜索引擎核心技术详解10—网页去重

    搜索引擎核心技术详解10—网页去重

    网页去重时机一般在爬虫新抓取到网页后,对网页建立索引前。一个典型的去重算法由特征抽取、文档指纹生成和相似性计算3个关键环节构成。能够快速处理海量数据是搜索引擎对去重算法的内在要求,去重算法设计必须兼顾准确性和运行效率,在两者之间取得平衡。4种典型的去重算法:Shi gli g 算法、I-Match 算法、SimHa h 算法、S otSig 算法。看似迥异,...

    webrank webrank 2024-01-22
    16 0
  • 搜索引擎核心技术详解8—网页反作弊

    搜索引擎核心技术详解8—网页反作弊

    作弊与反作弊相生相克,只要作弊存在经济利益,两者斗争一定会持续。常见的作弊方法包括:内容作弊、链接作弊、隐藏作弊和We 2。0作弊。通用反作弊手段大致划分为以下3种类型:信任传播模型、不信任传播模型和异常发现模型。纯粹用技术手段目前无法彻底解决作弊问题,必须将人工手段和技术手段相互结合,才能取得较好的反作弊效果。网页反作弊是目前所有商业搜索引擎需要解决的重...

    webrank webrank 2024-01-22
    25 0
  • 搜索引擎核心技术详解6—链接分析

    搜索引擎核心技术详解6—链接分析

    链接分析在搜索引擎搜索结果排序中起到非常重要的作用。绝大部分链接分析算法建立在随机游走模型和子集传播模型基础之上。PageRa k和HTS算法是最重要且基础的两种链接分析算法,很多链接分析算法是对这两种方法的改进。SALSA算法是目前效果最好的链接分析算法之一,其融合了HT 算法与查询相关的特点,以及 PageRa k算法的随机游走模型。主题敏感 PageR...

    webrank webrank 2024-01-22
    39 0
  • 搜索引擎核心技术详解5—检索模型与搜索排序

    搜索引擎核心技术详解5—检索模型与搜索排序

    检索模型是搜索引擎排序的理论基础,用来计算网页和用户查询的相关性。几种常用的检索模型包括:布尔模型、向量空间模型、概率模型、语言模型及最近几年兴起的机器学习排序算法。目前大部分商业搜索引擎采用概率模型作为相关性排序模型,而BM25则是目前效果最好的概率检索模型。精确率和召回率是评价检索系统的常用指标,而对于搜索引擎来说,精确率尤为重要。可以将检索模型看做是:...

    webrank webrank 2024-01-22
    28 0
  • 搜索引擎核心技术详解3—搜索引擎索引

    搜索引擎核心技术详解3—搜索引擎索引

    倒排索引是搜索引擎用来快速查找包含某个单词的文档集合的数据结构。倒排索引由单词词典和所有单词对应的倒排列表构成。倒排列表由倒排列表项构成,一般倒排列表项包含文档ID、单词出现次数和单词在文档出现位置的信息,而文档ID则采取文档编号差值方式编码。3种常用的建立倒排索引的方法是:两遍文档遍历法、排序法、归并法。常用的索引更新策略有4种:完全重建策略、再合并策略、...

    webrank webrank 2024-01-22
    17 0
  • 搜索引擎核心技术详解2—网络爬虫

    搜索引擎核心技术详解2—网络爬虫

    从爬虫设计角度讲,优秀的爬虫应该具备高性能,好的可扩展性、健壮性和友好性。从用户体验角度考虑,对爬虫的工作效果评价标准包括:抓取网页覆盖率、抓取网页时新性和抓取网页重要性。抓取策略、网页更新策略、暗网抓取和分布式策略是爬虫系统至关重要的4个方面内容,基本决定了爬虫系统的质量和性能。 通用搜索引擎的处理对象是互联网网页,目前网页数量以百...

    webrank webrank 2024-01-22
    25 0
  • 搜索引擎核心技术详解1—搜索引擎及其技术架构

    搜索引擎核心技术详解1—搜索引擎及其技术架构

    1、搜索引擎为何重要搜索引擎依托于互联网,互联网的蓬勃发展是搜索引擎产品与技术逐步成熟的大背景。离开互联网,搜索引擎将无从谈起。1)互联网的蓬勃发展20世纪90年代初期是互联网后期获得大规模发展的起爆点,之所以如此,是有其技术背景和社会背景的。2)商业搜索引擎公司的发展1995年是搜索引擎商业公司发展的重要起点,其对应的背景是:互联网上的We 站点数量首次超...

    webrank webrank 2024-01-22
    27 0
  • 200个源数据网站推荐(数据分析网址大全)

    200个源数据网站推荐(数据分析网址大全)

    200个源数据网站推荐,寻找行业数据网址大全一、搜索引擎 搜索引擎是我们信息资料搜集的最重要的渠道之一,用搜索引擎查找信息资料需要使用恰当的关键词和一些搜索技巧。目前国内主要的搜集引擎有如下10个,近期还有较多行业型搜索冒出来,需找专业型行业资料可以使用行业型搜索引擎。 ...

    webrank webrank 2024-01-18
    25 0
  • 一文看懂Python面向对象编程(怎么理解面向对象编程)

    一文看懂Python面向对象编程(怎么理解面向对象编程)

    帮你理解Pytho 面向对象的编程的基本概念和核心思想。本文内含很多实例代码,以帮助新手更好理解。如果你在学习基于Pytho 的Dja go We 开发框架,本文也会对你非常有帮助,因为Dja go编程就是采用面向对象的编程。类(Cla )与对象(O ject)类(Cla )是用来描述具有相同属性(Attr...

    webrank webrank 2024-01-18
    54 0
  • 10 道经典 MySQL 面试题

    10 道经典 MySQL 面试题

    1.dro ,delete与tru cate的区别相同点:tru cate和不带where子句的delete,以及dro 都会删除表内的数据不同点:tru cate会清除表数据并重置id从1开始,delete就只删除记录,dro 可以用来删除表或数据库并且将表所占用的空间全部释放tru cate和delete只删除数据不删除表的结构。dro 语句将删除表的结...

    webrank webrank 2024-01-18
    21 0

最新文章