搜索引擎优化:西宁搜索引擎工作原理如何进行的?
阅读 · 发布日期 2018-11-06 11:23 · admin搜索引擎工作的原理就是:当用户在某个搜索引擎上搜索相关关键词的时候,搜索引擎将用户搜索的信息用排名罗列的方式给用户展现在搜
索引擎上。搜索引擎为用户展现的每一条搜索结果,都对应着整个互联网上的一个页面。
搜索引擎所展现的搜索结果从搜索到被搜索引擎展现给用户,都必须要经过四个过程:抓取、过滤、建立索引和输出结果。
第一步:就是抓取(抓取都没有何来的展现和排名)
假如你有一个网站,当你的网站更新以后生成一些新的页面以后(这里我们用百度举例),百度搜索引擎就会派一个蜘蛛到你的网站进行爬
行,蜘蛛爬行网站的速度是很快的,一般它会通过首页爬行你的整个网站(前提是你的网站有可以抓取的页面,比如网站后台,一般网站都是禁
止抓取的,当你告诉蜘蛛不能抓取的时候,蜘蛛就不会抓取)。
Baiduspider,或称百度蜘蛛,会通过搜索引擎系统的计算,来决定对哪些网站施行抓取,以及抓取的内容和频率值。搜索引擎的计算过程会
参考您的网站在历史中的表现,比如内容是否足够优质,是否存在对用户不友好的设置,是否存在过度的搜索引擎优化行为等等。
当您的网站产生新内容时,Baiduspider会通过互联网中某个指向该页面的链接进行访问和抓取,如果您没有设置任何外部链接指向网站中的
新增内容,则Baiduspider是无法对其进行抓取的。对于已被抓取过的内容,搜索引擎会对抓取的页面进行记录,并依据这些页面对用户的重要程
度安排不同频次的抓取更新工作。
百度搜索引擎的蜘蛛或者说爬虫会把通过爬行抓取的页面文件,存入百度的临时数据库。
需您要注意的是,有一些抓取软件,为了各种目的,会伪装成Baiduspider对您的网站进行抓取,这可能是不受控制的抓取行为,严重时会影
响到网站的正常运作。点此识别Baiduspider的真伪。
第二步:过滤(把一些没有解决用户需求的网站进行过滤处理)
百度把抓取到的页面放到临时数据库以后,会进行数据过滤,把一些没有用的(已经有重复纪录的内容,和一些质量低的内容)那些进行过滤
掉。
互联网中并非所有的网页都对用户有意义,比如一些明显的欺骗用户的网页,死链接,空白内容页面等。这些网页对用户、站长和百度来说
,都没有足够的价值,因此百度会自动对这些内容进行过滤,以避免为用户和您的网站带来不必要的麻烦。
第三步:建立索引(为了加速对表中数据行的检索而创建的一种分散的存储结构)
百度对抓取回来的内容会逐一进行标记和识别,并将这些标记进行储存为结构化的数据,比如网页的tagtitle、metadescripiton、网页外链
及描述、抓取记录。同时,也会将网页中的关键词信息进行识别和储存,以便与用户搜索的内容进行匹配。
蜘蛛把抓取的页面文件通过分解、分析,通过过滤筛选,把有用的页面文件,以巨大表格的形式存入数据库,这个过程即是索引
第四步:输出结果
用户输入的关键词,百度会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关
键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列,展现给用户。
当蜘蛛通过过滤把一些拥有有用的页面存入数据库以后,也就代表网站这些页面已经收录了,它会通过排名的方式把收录的这些有用的页面
展现给用户,就是比如用户在百度搜索“搜索引擎工作原理”,当点击搜索以后会出现一些关于“搜索引擎工作原理”的相关信息,这就是展现
即:输出结果
蜘蛛爬行有两种方式:主动和被动
主动:当你的网站生成新的页面以后,百度会派一个蜘蛛到你的网站进行抓取,这是主动。
被动:被动就是,当你的网站生成新的页面以后,百度没有派蜘蛛到你的网站进行抓取,这时你可以通过百度站长工具或者百度页面提交等
方式把生成新的页面的链接提交给百度,告诉百度你的网站有新的页面了
蜘蛛会定期的到你的网站进行爬行抓取,一般你的网站更新速度快一些,蜘蛛来的次数也就多一些。如果你的网站更新慢一些。蜘蛛来的次
数也就少一些。即使你的网站不更新,蜘蛛也会定期到你的网站
综上,您若希望通过搜索引擎为用户带来更好的体验,需要您对网站进行严格的内容建设,使之更符合用户的浏览需求。需要您注意的是,
网站的内容建设始终需要考虑的一个问题是,这对用户是否有价值。对用户没有价值的网站是没有什么用的,搜索引擎是不会给与好的排名的。