搜索引擎的工作原理

2018-06-14 21:56

百度搜索引擎的相关工作原理做一下小结：

搜索引擎就是通过一种简单的搜索，通过这种搜索能够查找到自己所需要的信息，像一些知名的所搜引擎主要有百度、谷歌、360、soso、必应、雅虎等等。

搜索引擎的抓取收录原理流程：抓取->过滤->存储索引库->展示排序

第一步：搜索引擎爬取。蜘蛛都是通过来爬取网站页面里的超文本链接来顺藤摸瓜的，同时将所搜取得页面信息放到缓存里面。

1.爬取方式：深度抓取、深度抓取。

深度抓取是指先抓取完一个栏目的内容页，然再换个栏目以同样的方式抓取。

广度抓取也称之为横着抓取，它是指先抓取完每个栏目也，再抓取每个栏目页下面的内容页。

2.蜘蛛很难识别的内容

蜘蛛虽然很强大，但是由于受到技术的限制，并不是所有的信息都能够识别过来，像Javascript代码，iframe框架代码机构，图片，flash(视频前后加文字辅助搜索引擎识别)，需要登录之后才能获取的页面信息，嵌套table等都很难识别，所以这时候你应该注意哪些问题，例如js代码应该放在页面底部，图片借助于alt、title属性辅助识别等等技巧。

第二步：过滤工作

并不是所抓取到的信息都是有用的，也并不是所有的信息都将保存在数据库中，搜索引擎需要进行相关的过滤工作，将会把那些低俗，没有价值质量，通过一些列采集，内容质量不丰富等信息过滤掉，展现在用户面前的都将是存在一定价值的内容。

第三步：建立索引缓存数据库

蜘蛛抓取过来的页面内容并不会立马存储到自身的数据库中，而是建立一个临时的索引数据库，经过相关的操作在进行一定的判断。

第四步：搜索引擎展示排名排序

由于搜索引擎进入到用户点击时代，搜索引擎会把索引数据库里面的信息的决定权交给用户，让用户

来决定那个质量的高低，这样然后再把那些索引数据库里面的内容展现出来，同时也把这些信息转化存储到自身真正的数据库中。所以再有了我们在搜索引擎所搜几的结果，搜索根据各种算法进行排序，将质量最好的十个结果放在第一页，这就是整个搜索引擎的大致工作原理，虽然不同的搜索原理有所差距，但是核心是一样的。