【搜索引擎】搜索引擎的优化原理和介绍
阅读 · 发布日期 2021-08-08 14:37 · admin
网站优化基本概念
搜索引擎优化Search Engine Optimization
定义:是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式。主要工作原则是,通过了解各类搜索引擎抓取互联网页面、进行索引以及确定其对特定关键词搜索结果排名等技术,来对网页进行相关的优化。
“注:请不要针对搜索引擎而采用作弊行为,否则会容易受到处罚。仅仅是模仿甚至抄袭别人的内容,这样对用户来说没有价值的。请牢记:为用户,而不是为搜索引擎提供内容。您网站的设计首先要考虑用户的需求,并同时确保能便于搜索引擎抓取和索引。”
一、站点地图Sitemap
定义:sitemap可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页。
常见的sitemap文件,就是txt、xml、xml一级索引这三种格式文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。
二、Robots协议
定义:Robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。
您可以使用robots.txt禁止spider抓取您不想向用户展现的形式,这也有助于节省您的宽带。
三、元标签
定义:是使用在网页的head标签之间的一种HTML标签,主要包括关键词标签和描述标签,现在最常用的也是这两类。
与其它的HTML标签不同,元标签不会在页面的任何地方显示出来,所以绝大多数的访问者并不会看到它的存在,而且对网站的权威度没有影响,不过仍然是有好处的,特别是在与搜索引擎的spider交流的时候。
不同的元标签起着不同的作用——但均用来提供关于页面的附加信息。
四、网页标题Title
定义:是对一个网页的高度概括,一般来说,网站首页的标题就是网站的正式名称,而网站中文章内容页面的标题就是文章的题目,栏目首页的标题通常是栏目名称。
您网站首页的标题可以列出网站或者公司名称和其他一些重要的信息,诸如您公司的实际地址,一些主要关注的领域或者提供的服务。
助君网络建议站长不要利用网页标题进行恶意作弊,类似于一些网站正文内容与标题不符,或者标题过长、关键词堆砌的网站,搜索引擎不会保证收录,甚至可能处罚。
五、面包屑导航
定义:是指在网页顶端或者底部放置的一排内部链接,它使用户可以方便地回到上一层结构中的网页或者主页。大多数面包屑导航通常会从最具概括性的页面开始(通常是主页),越往右指向的页面内容越具体。
六、图片alt属性
定义:是一个用于网页语言HTML和XHTML、为输出纯文字的参数属性。它的作用是当HTML元素本身的物件无法被渲染时,就显示alt(替换)文字作为一种补救措施。当图片因为一些原因不能够显示的时候,alt 属性使您可以指定供替换显示的文字。
为什么使用这个属性呢?如果一个用户在浏览您的网站的时候使用的浏览器不支持图片,或者用户在使用一些类似于屏幕阅读器的设备时,alt 属性的内容就可以提供关于图片的信息。
除此之外,使用alt属性还有另一个原因。如果您把一张图片作为一个链接,此时这个图片的alt属性就能起到与文本链接的锚文本相同的作用。
七、锚文本Anchor Text
定义:就是链接文本,是链接的一种形式,即是链接上可以被点击的文字。锚文本可以做为锚文本所在页面内容的评估。正常来讲,页面中增加的链接都会和页面本身的内容有一定的关系。
八、Heading标签
定义:Heading标签也叫做H标签,HTML语言里一共有六种大小的heading 标签,从最重要的到,网页权重依次降低。是网页html中对文本标题所进行的着重强调的一种标签。
九、Http状态码
301:(永久移动)请求的网页已永久移动到新位置。服务器返回此响应(对 GET 或 HEAD 请求的响应)时,会自动将请求者转到新位置。
302:代表暂时性转移(Temporarily Moved)。
403:资源不可用。服务器理解客户的请求,但拒绝处理它。通常由于服务器上文件或目录的权限设置导致,比如IIS或者apache设置了访问权限不当。
404:请求失败,请求所希望得到的资源未被在服务器上发现。404这个状态码被广泛应用于当服务器不想揭示到底为何请求被拒绝或者没有其他适合的响应可用的情况下。出现这个错误的最有可能的原因是服务器端没有这个页面。