搜索引擎是指通过特定的计算机程序,按照一定的策略,从互联网上收集信息,对信息进行组织和处理后,为用户提供检索服务,并将用户检索到的相关信息显示给用户的系统。
搜索引擎工作原理总分为三步爬行和爬行:搜索引擎蜘蛛通过跟踪链接访问页面,获取页面的HTML代码并存储在数据库中。
预处理:索引程序对抓取的页面数据进行文本提取、中文分词、索引等处理,供排名程序调用。
排名:用户输入关键点后,排名程序调用索引数据库数据,计算相关性,然后生成一定格式的搜索结果页面。
转到stopword
有些经常出现但对内容没有影响的词叫stopword。
消除噪声去噪:根据HTML标签将页面分块,区分页眉、导航体、页脚、广告等区域。网站上大量重复的区块往往属于噪音。去噪后的页面,剩下的就是页面的主要内容了。
去重:从页面的主题内容中选取一些最有代表性的关键词,计算这些关键词的数字指纹。这里的关键词是经过分词、停用词去除、去噪后选择的。
远期指数
根据分词程序划分的词,将页面转换成一组关键词,记录每个关键词在页面上出现的频率、频率、格式和位置。
倒排索引
搜索引擎将从文件到关键字的映射转换为从关键字到文件的映射。当用户搜索关键字时,排序程序在倒排索引中定位该关键字,并且可以立即找出包含该关键字的所有文件
链接关系计算
搜索引擎抓取页面内容后必须提前计算:页面上哪些链接指向其他页面,每个页面上哪些导入链接,链接使用什么描述文本。这些复杂的链接指向关系构成了网站和页面的权重。
特殊文件处理
除了处理HTML文件,搜索引擎通常还可以抓取和索引各种基于文本的文件类型,比如PDF、Word、WPS、XLS、PPT、TXT文件等。但是目前的搜索引擎远远没有读取图片、视频、Flash等非文本内容,无法执行脚本内容和程序。
1.《工作搜索 什么是搜索引擎?网络搜索引擎是怎么工作的?》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《工作搜索 什么是搜索引擎?网络搜索引擎是怎么工作的?》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/1697238.html