再次认识“搜索引擎的工作原理”

再谈工作原理之前,我们先来认识下搜索引擎的工作的架构示意流程图 互联网环境——蜘蛛——内容处理(抓取主题页面)——检索用户需求分析——剔除重复页面——用户体验(链接分析、内容相关性)——网页排序——分析——展现客户 简单的工作流程机制如下: 1、当用户有搜索行为的时候,spider也就是大家常说的蜘蛛爬虫,就开始按照一定的策略行为吧我们的网页抓回到搜索引擎服务器上。2、查找分析整个缓存中是否有匹配的关键词结果,对整个页面开始一个体检的过程,分析页面的内容,消除噪音影响,提取该页面的主要文本内容进行分析。(对与不存在缓存中的关键词,搜索引擎就会检索相关的性的内容进行排名展现)3、然后是内容的处理,对于重复内容进行筛选,再去索引相关的内容匹配和链接的分析,在根据用户的行为判断出页面的体验度,经过人工干预和缓存机制等几个步奏的快速分析得出一个完整的排名展现。 搜索引擎中最为重要的一个机制spider:别名(蜘蛛、小爬虫、机器人)他是一个处于整个搜索引擎最上端的一个模块,只有经过spider抓回的页面或者URL才会参与排名。这个地方需要注意的是(并不是所有蜘蛛抓取的URL都会被抓取网站内容,因为有些网站对蜘蛛进行了屏蔽,这个时候spider也会给URL参与排名的机会。)还有一个关键点就是,一定要给spider留一个页面抓取入口,也就是需要我们提交页面。有了页面入口,spider才会顺着他爬进去进行抓取,这是一个策略性的问题,如果一个良好的抓取策略会加快spider占据整个网页的比例,也就是索引量更多,收录效果更好滴。