广 告 位 招 租 QQ:527116945
当前位置: 首页 » SEO » seo » 正文

seo自然优化排名

放大字体  缩小字体 发布日期:2022-05-29 01:16:35  来源:seo自然优化排名  作者:gu  浏览次数:13
核心提示:seo自然优化排名-Canonical标签是什么今天的主要话题是Baiduspider主要抓取策略类型的分享,关于策略类型的话题,觉得还是必须要

seo自然优化排名-Canonical标签是什么

今天的主要话题是Baiduspider主要抓取策略类型的分享,关于策略类型的话题,觉得还是必须要参考一下百度站长平台所发布的关于Baiduspider主要抓取策略类型的说明,其正文部分如下:

Baiduspider在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下做简单介绍:

1、抓取友好性

互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。

通常情况下,最基本的是基于ip的压力控制。这是因为如果基于域名,可能存在一个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。实际中,往往根据ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。

对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。

2、常用抓取返回码示意

简单介绍几种百度支持的返回码:

1)最常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;

2)503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除;

3)403代表“Forbidden”,认为网页目前禁止访问。如果是新url,spider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除;

4)301代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。

3、多种url重定向的识别

互联网中一部分网页因为各种各样的原因存在url重定向状态,为了对这部分资源正常抓取,就要求spider对url重定向进行识别判断,同时防止作弊行为。重定向可分为三类:http 30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canonical标签,在效果上可以认为也是一种间接的重定向。

4、抓取优先级调配

由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到最优的抓取效果。

5、重复url的过滤

spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取再进行抓取网页的行为并放在已抓取网址集合中。判断是否已经抓取其中涉及到最核心的是快速查找并对比,同时涉及到url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面,这将视为同一个url来对待。

6、暗网数据的获取

互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据是存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法抓取。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如“百度站长平台”“百度开放平台”等等。

7、抓取反作弊

spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。例如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等等。

seo自然优化排名-SEO相关(1)

很多朋友在搭建网站的时候都会选择CMS系统去建站,比如最常使用的DEDECMS和PHPCMS。那么什么是CMS系统呢,作为喜欢seo的朋友也应该去简单的了解一下。今天转载来自百度百科对CMS系统的解释,CMS是Content Management System的缩写,意为”内容管理系统”。其正文部分如下:

在中国互联网的发展历程中,一直以来默默地为中国站长提供动力的CMS厂商作出的贡献尤其巨大,而与之成反比的是CMS厂商的生存状态依然令人担忧,由于国内站长对于免费和开源的FreeEIM尤为热衷,用户的版权意识低加之用户误将开源认 为就是免费的,使得一些获得资本注入的CMS厂商无法达到预期的目标,导致PHPCMS创始人淡淡风和DEDECMS创始人IT柏拉图相继离职事件,亦是2010年CMS行业最大的新闻,交流中,感受更多的是他们只是成功的技术狂热者,还不算真正的商人,CMS行业之路对他们还任重道远。

CMS具有许多基于模板的优秀设计,可以减少开发的成本。CMS的功能并不只限于文本处理,它也可以处理图片、Flash动画、声像流、图像甚至电子邮件档案。CMS还分各个平台脚本种类的。内容管理系统是企业信息化建设和电子政务的新宠,也是一个相对较新的市场,对于内容管理,业界还没有一个统一的定义,不同的机构有不同的理解:

Gartner Group 认为内容管理从内涵上应该包括企业内部内容管理、Web内容管理、电子商务交易内容管理和企业外部网(Extranet)信息共享内容管理(如CRM和 SCM等),Web内容管理是当前的重点,e-business和XML(标准通用标记语言的子集)是推动内容管理发展的源动力。

Merrill Lynch的分析师认为内容管理侧重于企业员工、企业用户、合作伙伴和供应商方便获得非结构化信息的处理过程。内容管理的目的是把非结构化信息出版到intranets, extranets和ITE(Internet Trading Exchanges), 从而使用户可以检索、使用、分析和共享。商业智能系统 (BI)侧重于结构化数据的价值提取,而内容管理则侧重于企业内部和外部非结构化资源的战略价值提取。

Giga Group 认为作为电子商务引擎,内容管理解决方案必须和电子商务服务器紧密集成,从而形成内容生产(Production)、传递(Delivery)以及电子商务端到端系统。

我们认为内容管理系统是一种位于WEB前端(Web 服务器)和后端办公系统或流程(内容创作、编辑)之间的软件系统。内容管理解决方案重点解决各种非结构化或半结构化的数字资源的采集、管理、利用、传递和增值,并能有机集成到结构化数据的商业智能环境中,如OA,CRM等。内容的创作人员、编辑人员、发布人员使用内容管理系统来提交、修改、审批、发布内容。这里指的”内容”可能包括文件、表格、图片、数据库中的数据甚至视频等一切你想要发布到 Internet、Intranet以及Extranet网站的信息。

一套专业的内容管理系统CMS可以有效解决用户网站建设与信息发布中常见的问题和需求,对网站内容管理是该软件的最大优势,它流程完善、功能丰富,可把稿件分门别类并授权给合法用户编辑管理,而不需要用户去理会那些难懂的SQL语法。

用最直白最简单的语言来解释什么是CMS的话,CMS应该是可以帮助用户将内容完美发布在互联网上,并且拥有独立自主权的一个网站平台。搭建网站的时候CMS会把网站后台功能全部呈现出来,用户只需要做好前端内容就可以了。

seo自然优化排名-SEO相关(2)

Canonical标签的格式一般为:<link rel=’canonical’ href=’#’ />,意思就是让搜索引擎只收录带有Canonical标签的网址,对其他的重复页面的收录可以忽略不记,不参加页面权重的分配,这样的好处是集权效果明显。

Canonical标签与301重定向的作用有些相似,但是去主要的区别在于Canonical标签所针对的多个页面的特点是要相似度极高,甚至是完全相同的多个页面才会用到Canonical标签,而对于301重定向来说,任何多个页面都可以做301重定向。

很多时候,我们网站的多个页面虽然相似度很高,但是我们还是想让用户都可以访问这些页面,比如相同产品的不同型号的页面。那么这个时候我们就可以运用Canonical标签实现集权效果,告诉搜索引擎只要把相同的多个页面的权重集中到一个页面就可以了。

301重定向则是不管多少页面,只要做了301重定向,用户就只能访问其中的一个页面了,因为其他所有的页面都会跳转到这个页面上来。

或许因为大多SEOer都懂得301重定向的设置,所以小凯用301重定向与Canonical标签的区别来解释Canonical标签是什么,比较通俗易懂吧。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
 

关键词: seo自然优化排名
 
推荐图文
最新热点文章