SEO:搜索引擎如何工作

2021年2月24日06:35:37 发表评论 33 次浏览

搜索引擎在网上搜寻, 在数十亿个数据点中进行筛选, 以在不到一秒钟的时间内提供信息。我们认为理所当然的即时信息访问是基于庞大的数据检索和软件系统。

对于搜索引擎的工作方式, Google一直是最有希望的人, 因此我将以它为例。

在最简单的层次上, 搜索引擎可以做两件事。

  • 索引信息。在万维网上发现并存储有关30万亿个单独页面的信息。
  • 返回结果。通过一系列复杂的算法和机器学习, 识别并向搜索者显示与其搜索查询最相关的页面。

检索和索引

Google如何找到3000万个网页?在过去的18年中, Google一直在逐页抓取网络。称为搜寻器的软件程序(也称为机器人, 机器人或蜘蛛)以一组初始的网页开始。为了使搜寻器开始工作, 人员输入了一组种子页面, 提供了搜寻器的内容以及指向索引和跟随的链接。 Google的抓取软件称为Googlebot, Bing的称为Bingbot, 而Yahoo使用Slurp。

当漫游器遇到页面时, 它会捕获该页面上的信息, 包括文本内容, 呈现页面的HTML代码, 有关页面如何链接的信息以及链接到的页面。

随着Googlebot的爬行, 它会发现越来越多的链接。下图非常简单地显示了杰里的Artarama(折扣艺术品供应电子商务网站)上的一个三页爬网路径。

Jerrysartarama.com上的简单爬网路径示例。

Jerrysartarama.com上的简单爬网路径示例。

左侧的徽标表示网站首页的起点, 其中Googlebot遇到184个链接:列出的10个链接和174个链接。当Googlebot跟随标题导航中的"丙烯酸涂料和介质"链接时, 它将发现另一个页面。 "丙烯酸涂料和介质"页面上有135个链接。当Googlebot跟踪到另一个页面的链接时, 例如" Winsor&Newton Acrylics and Mediums", 它会遇到108个链接。该示例到此结束, 但是搜寻器继续通过他们发现的每个页面上的链接访问页面, 直到发现所有被认为相关的页面为止。

在抓取网站的过程中, 漫游器将反复遇到相同的链接。例如, 页眉和页脚导航中的链接应位于每个页面上。 Googlebot可能只是基于该链接记录了两个页面之间的关系, 然后移至下一个唯一页面, 而不是在同一次访问中重新检索内容。

爬网过程中收集的所有信息(针对30万亿个网页)都存储在庞大数据中心的庞大数据库中。要了解其15个数据中心之一的规模, 请观看Google的官方旅游视频"在Google数据中心内"。

随着漫游器爬行以发现信息, 信息将存储在数据中心内的索引中。该索引会组织信息, 并告诉搜索引擎的算法在返回搜索结果时在哪里可以找到相关信息。

但是索引并不像一个暗柜, 它会在爬行时将所有内容随机塞入。索引整齐, 将发现的网页信息与其他相关信息一起存储, 例如内容是新的还是更新的版本, 内容的上下文, 该特定网站内的链接结构以及网络其余部分, 同义词文字中的单词, 发布页面的时间以及页面中包含图片还是视频。

返回搜索结果

在搜索引擎中搜索内容后, 将显示结果。显示的每个网页都称为搜索结果, 搜索结果的显示顺序称为排名。

但是, 一旦对信息进行爬网和建立索引, Google如何确定在搜索结果中显示什么?答案当然是一个严密的秘密。

搜索引擎如何决定要显示的内容大致称为其算法。每个搜索引擎都使用专有的算法, 该算法旨在从其索引中尽快提取最相关的信息, 以便以人类搜索者认为最有用的方式对其进行显示。

例如, Google搜索质量高级策略师Andrey Lipattsev最近确认Google排名前三的搜索因素是内容, 链接和机器学习人工智能系统RankBrain。无论每个搜索引擎称其算法为什么, 现代搜索引擎算法的基本功能都是相似的。

内容决定了上下文的相关性。页面上的单词, 结合使用它们的上下文以及链接到它们的页面, 决定了内容如何存储在索引中以及它可能回答哪些搜索查询。

链接确定权限和相关性。除了提供爬网和发现新内容的途径外, 链接还充当授权信号。通过测量与链接到每个单独页面的页面的相关性和质量以及该页面链接到的页面的相关性和质量有关的信号来确定权限。

搜索引擎算法将数百种信号与机器学习结合在一起, 以确定每个页面的上下文和权限与搜索者的查询之间的匹配, 以提供一页搜索结果。从上下文相关性和权威性角度出发, 一个页面需要在算法上排在前7至10个最高度匹配的页面之中, 才能显示在搜索结果的第一页上。

一盏木

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: