很多人只知道搜索引擎的一个原理,不知道另一个。随着互联网时代的发展,越来越多的算法被公开,越来越多的人对搜索引擎算法感到好奇。今天由迅步总结的这篇文章,用最简单直白的语言解释了搜索引擎的原理。本章内容分为采集和建库、搜索和排序、外部投票和结果展示。
检索排序

恢复
我们都知道,从用户的角度来看,我们使用搜索引擎就是一个查询的过程。当用户搜索不同的词时,搜索引擎会给我们不同的结果。比如我们在搜索“运营是什么”的时候,会把一些与话题最相关的答案展示给用户。在搜索“运营是什么行业”时,我们会改变搜索结果,向用户展示其他相关答案。这个搜索过程是如何实现的?这就不得不提检索了。
当用户输入词汇时,算法会进行分词,然后找出每组$ term文档,然后找到交集,最后通过协同过滤等过滤技术形成排序。我们以上面的操作为例。分词后会变成:
操作-0x123 SDSD
是——0x1237887
什么-0x565768
并且算法找出每个文档集,可能就是这种情况。
0x123sdsd 1 3 4 5
0x1237887 3 5 12
0x565768 9 7 6
找到上面的交集后,我们发现文档3和5是我们可能需要找到的。如果用一个更简单的例子,我们可以这样描述:比如用户搜索操作是什么行业的查询后,分词结果是:
行动A,B,C,
d、E

g,H
h,C
我们可以看到,当用户搜索“运营是什么行业”时,C页就是我们想要找到的结果。在实际应用过程中,算法会丢弃ah、what、oh等词。也就是说,我们的页面经过切分后包含的词越多,被检索到的概率就越大,也就是业界所说的“关键词密度”。
分类
现在搜索结果有了,哪些因素会影响排序?
1.关联
相关性是影响排名的重要因素,占比超过70%。网页内容与用户检索需求的匹配程度主要体现在需求匹配、关键词数量、关键词位置以及外部链接指向页面所使用的锚文本。
翻译就是,比如在我们的内容中,出现了一个运营和行业高度相关的词库,在H1等地多次出现。一个外部链接指向了带有锚文本的页面,因此该页面大概率与主题高度相关。
2.权威
用户都喜欢权威网站,算法也相信权威网站的内容,而权威代表这个网站的资质,也就是备案、担保、信誉、认证等。就是我们经常提到的。
3.及时
内容的时效性也意味着出现了新的页面,新的页面承载了新鲜的内容,所以我们的内容可以按时间顺序排到前面。

4.重要
网页的内容与用户需求的重要性或受欢迎程度相匹配。这句话可以这样理解:当用户查询时,我们的内容不仅仅是与话题相关,还需要吸引和被用户重视。
5.丰富
丰富看似简单,但确实范围很广。简单的理解就是你可以生产一个内容满足用户的单一需求,但也可以满足用户的延伸需求。这是什么意思?我们可以以上面的“运营是什么行业”为例。用户在搜索什么行业是运营的时候,用户的普遍需求是想知道什么行业是运营,能不能入行。更深层次的需求是想了解运营这个行业的薪资福利,是否有发展前景。如果我们在一篇文章中完善了用户的各种需求,文章的丰富性就出来了。
总结一下搜索和排序的过程:当用户进行查询时,算法会将问题裁剪掉,并显示包含该主题的所有页面的结果。但由于有些页面与话题关联度高,内容丰富,观点新颖,让用户喜欢,所以这类文章会被算法排在第一位。


