2018-06-14 21:56
百度搜索引擎的相关工作原理做一下小结:
搜索引擎就是通过一种简单的搜索,通过这种搜索能够查找到自己所需要的信息,像一些知名的所搜引擎主要有百度、谷歌、360、soso、必应、雅虎等等。
搜索引擎的抓取收录原理流程:抓取->过滤->存储索引库->展示排序
第一步:搜索引擎爬取。蜘蛛都是通过来爬取网站页面里的超文本链接来顺藤摸瓜的,同时将所搜取得页面信息放到缓存里面。
1.爬取方式:深度抓取、深度抓取。
深度抓取是指先抓取完一个栏目的内容页,然再换个栏目以同样的方式抓取。
广度抓取也称之为横着抓取,它是指先抓取完每个栏目也,再抓取每个栏目页下面的内容页。
2.蜘蛛很难识别的内容
蜘蛛虽然很强大,但是由于受到技术的限制,并不是所有的信息都能够识别过来,像Javascript代码,iframe框架代码机构,图片,flash(视频前后加文字辅助搜索引擎识别),需要登录之后才能获取的页面信息,嵌套table等都很难识别,所以这时候你应该注意哪些问题,例如js代码应该放在页面底部,图片借助于alt、title属性辅助识别等等技巧。
第二步:过滤工作
并不是所抓取到的信息都是有用的,也并不是所有的信息都将保存在数据库中,搜索引擎需要进行相关的过滤工作,将会把那些低俗,没有价值质量,通过一些列采集,内容质量不丰富等信息过滤掉,展现在用户面前的都将是存在一定价值的内容。
第三步:建立索引缓存数据库
蜘蛛抓取过来的页面内容并不会立马存储到自身的数据库中,而是建立一个临时的索引数据库,经过相关的操作在进行一定的判断。
第四步:搜索引擎展示排名排序
由于搜索引擎进入到用户点击时代,搜索引擎会把索引数据库里面的信息的决定权交给用户,让用户
来决定那个质量的高低,这样然后再把那些索引数据库里面的内容展现出来,同时也把这些信息转化存储到自身真正的数据库中。所以再有了我们在搜索引擎所搜几的结果,搜索根据各种算法进行排序,将质量最好的十个结果放在第一页,这就是整个搜索引擎的大致工作原理,虽然不同的搜索原理有所差距,但是核心是一样的。