工作搜索什么是搜索引擎？网络搜索引擎是怎么工作的？

搜索引擎是指通过特定的计算机程序，按照一定的策略，从互联网上收集信息，对信息进行组织和处理后，为用户提供检索服务，并将用户检索到的相关信息显示给用户的系统。

搜索引擎工作原理总分为三步

爬行和爬行:搜索引擎蜘蛛通过跟踪链接访问页面，获取页面的HTML代码并存储在数据库中。

预处理:索引程序对抓取的页面数据进行文本提取、中文分词、索引等处理，供排名程序调用。

排名:用户输入关键点后，排名程序调用索引数据库数据，计算相关性，然后生成一定格式的搜索结果页面。

转到stopword

有些经常出现但对内容没有影响的词叫stopword。

消除噪声

去噪:根据HTML标签将页面分块，区分页眉、导航体、页脚、广告等区域。网站上大量重复的区块往往属于噪音。去噪后的页面，剩下的就是页面的主要内容了。

去重:从页面的主题内容中选取一些最有代表性的关键词，计算这些关键词的数字指纹。这里的关键词是经过分词、停用词去除、去噪后选择的。

远期指数

根据分词程序划分的词，将页面转换成一组关键词，记录每个关键词在页面上出现的频率、频率、格式和位置。

倒排索引

搜索引擎将从文件到关键字的映射转换为从关键字到文件的映射。当用户搜索关键字时，排序程序在倒排索引中定位该关键字，并且可以立即找出包含该关键字的所有文件

链接关系计算

搜索引擎抓取页面内容后必须提前计算:页面上哪些链接指向其他页面，每个页面上哪些导入链接，链接使用什么描述文本。这些复杂的链接指向关系构成了网站和页面的权重。

特殊文件处理

除了处理HTML文件，搜索引擎通常还可以抓取和索引各种基于文本的文件类型，比如PDF、Word、WPS、XLS、PPT、TXT文件等。但是目前的搜索引擎远远没有读取图片、视频、Flash等非文本内容，无法执行脚本内容和程序。

1.《工作搜索什么是搜索引擎？网络搜索引擎是怎么工作的？》援引自互联网，旨在传递更多网络信息知识，仅代表作者本人观点，与本网站无关，侵删请联系页脚下方联系方式。

2.《工作搜索什么是搜索引擎？网络搜索引擎是怎么工作的？》仅供读者参考，本网站未对该内容进行证实，对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址，https://www.lu-xu.com/jiaoyu/1697238.html

工作搜索 什么是搜索引擎？网络搜索引擎是怎么工作的？