搜索引擎的基本原理

核心提示搜索引擎原理很多人都只知其一,不知其二,随着互联网时代的发展,越来越多的算法被公开,也有越来越多的人对搜索引擎算法感到好奇,今天迅步总结的这篇文章用最简单直白的语言来解释搜索引擎的原理。本章内容分为抓取建库、检索排序、外部投票以及结果展现。

很多人只知道搜索引擎的一个原理,不知道另一个。随着互联网时代的发展,越来越多的算法被公开,越来越多的人对搜索引擎算法感到好奇。今天由迅步总结的这篇文章,用最简单直白的语言解释了搜索引擎的原理。本章内容分为采集和建库、搜索和排序、外部投票和结果展示。

检索排序

恢复

我们都知道,从用户的角度来看,我们使用搜索引擎就是一个查询的过程。当用户搜索不同的词时,搜索引擎会给我们不同的结果。比如我们在搜索“运营是什么”的时候,会把一些与话题最相关的答案展示给用户。在搜索“运营是什么行业”时,我们会改变搜索结果,向用户展示其他相关答案。这个搜索过程是如何实现的?这就不得不提检索了。

当用户输入词汇时,算法会进行分词,然后找出每组$ term文档,然后找到交集,最后通过协同过滤等过滤技术形成排序。我们以上面的操作为例。分词后会变成:

操作-0x123 SDSD

是——0x1237887

什么-0x565768

并且算法找出每个文档集,可能就是这种情况。

0x123sdsd 1 3 4 5

0x1237887 3 5 12

0x565768 9 7 6

找到上面的交集后,我们发现文档3和5是我们可能需要找到的。如果用一个更简单的例子,我们可以这样描述:比如用户搜索操作是什么行业的查询后,分词结果是:

行动A,B,C,

d、E

g,H

h,C

我们可以看到,当用户搜索“运营是什么行业”时,C页就是我们想要找到的结果。在实际应用过程中,算法会丢弃ah、what、oh等词。也就是说,我们的页面经过切分后包含的词越多,被检索到的概率就越大,也就是业界所说的“关键词密度”。

分类

现在搜索结果有了,哪些因素会影响排序?

1.关联

相关性是影响排名的重要因素,占比超过70%。网页内容与用户检索需求的匹配程度主要体现在需求匹配、关键词数量、关键词位置以及外部链接指向页面所使用的锚文本。

翻译就是,比如在我们的内容中,出现了一个运营和行业高度相关的词库,在H1等地多次出现。一个外部链接指向了带有锚文本的页面,因此该页面大概率与主题高度相关。

2.权威

用户都喜欢权威网站,算法也相信权威网站的内容,而权威代表这个网站的资质,也就是备案、担保、信誉、认证等。就是我们经常提到的。

3.及时

内容的时效性也意味着出现了新的页面,新的页面承载了新鲜的内容,所以我们的内容可以按时间顺序排到前面。

4.重要

网页的内容与用户需求的重要性或受欢迎程度相匹配。这句话可以这样理解:当用户查询时,我们的内容不仅仅是与话题相关,还需要吸引和被用户重视。

5.丰富

丰富看似简单,但确实范围很广。简单的理解就是你可以生产一个内容满足用户的单一需求,但也可以满足用户的延伸需求。这是什么意思?我们可以以上面的“运营是什么行业”为例。用户在搜索什么行业是运营的时候,用户的普遍需求是想知道什么行业是运营,能不能入行。更深层次的需求是想了解运营这个行业的薪资福利,是否有发展前景。如果我们在一篇文章中完善了用户的各种需求,文章的丰富性就出来了。

总结一下搜索和排序的过程:当用户进行查询时,算法会将问题裁剪掉,并显示包含该主题的所有页面的结果。但由于有些页面与话题关联度高,内容丰富,观点新颖,让用户喜欢,所以这类文章会被算法排在第一位。

 
友情链接
鄂ICP备19019357号-22