广 告 位 招 租 QQ:527116945
当前位置: 首页 » SEO » seo » 正文

seo的基本知识

放大字体  缩小字体 发布日期:2022-05-25 18:39:18  来源:seo的基本知识  作者:lu  浏览次数:1
核心提示:seo的基本知识-seo技术er必须要了解的智能小程序搜索知识解析关于robots文件在seo优化基础当中的作用是非常重要的,特别是针对于

seo的基本知识-seo技术er必须要了解的智能小程序搜索知识解析

关于robots文件在seo优化基础当中的作用是非常重要的,特别是针对于新站来说,这是在搜索引擎当中的第一印象的最重要的因素,如果robots文件操作到位,对今后搜索引擎的抓取、索引和收录都是非常有帮助的。那么robots文件是否支持中文目录呢?今天和朋友分享一下百度站长平台对robots文件是否支持中文目录所做出的解释,正文部分如下:

有同学问百度站长学院一个关于robots的问题:我们有个站点的目录结构使用的是中文,这样式儿的:www.a.com/冒险岛/123.html,那在制作robots文件和sitemap文件的时候,可以直接使用中文吗?百度能获取到吗?在实际操作中我们发现,sitemap中有文件是可以生效的,但robots封禁貌似没有反应,所以想确认一下:robots文件是否支持中文?

工程师解答:Baiduspider目前(2016年10月)在robots里是不支持中文的。

同学追问:那我们进行UrlEncode编码会不会支持呢?比如这种:http://www.a.cn/%E7%89%B9%E6%AE%8A:%E6%B5%8F%E8%A7%88/%E7%94%9F%E6%AD%BB%E7%8B%99%E5%87%BB:%E7%99%BD%E9%93%B6%E5%8A%A0%E7%89%B9%E6%9E%97

工程师解答:robots文件支持这种写法。但是否生效,还要取决于当时BaiduSpider抓取的是哪种形式结构的链接,如果是UrlEncode编码就可以生效,如果是中文就非常不幸了。

seo的基本知识-SEO相关(1)

在当中发布了不止一篇关于robots文件的内容,对于网站的seo基础优化来说,robots文件是一个比较重要的网站辅助文件之一,所以robots写法的准确性也是至关重要的。今天小凯和朋友们分享的主题就是关于robots文件的写法,本文转载自百度文库的robots.txt写法完全攻略。

当搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。Robots.t xt文件用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的。这就是大家在网络上常看到的“拒绝Robots访问标准”(Robots Exclusion Standard)。下面我们简称RES。

Robots.txt文件的格式:

Robots.txt文件的格式比较特殊,它由记录组成。这些记录通过空行分开。其中每条记录均由两个域组成:

1) 一个User-Agent(用户代理)字符串行;

2) 若干Disallow字符串行。

记录格式为:<Field> “:” <value>

下面我们分别对这两个域做进一步说明。

User-agent(用户代理):

User-agent行(用户代理行) 用于指定搜索引擎robot的名字,以Google的检索程序Googlebot为例,有:User-agent: Googlebot

一个robots.txt中至少要有一条User-agent记录。如果有多条User-agent记录,则说明有多个ro bot会受到RES标准的限制。当然了,如果要指定所有的robot,只需用一个通配符”*”就搞定了,即:User-agen t: *

Disallow(拒绝访问声明):

在Robots.txt文件中,每条记录的第二个域是Disallow:指令行。这些Disallow行声明了该网站中不希望被访问的文件和(或)目录。例如”Disallow: email.htm”对文件的访问进行了声明,禁止Spiders下载网站上的email.htm文件。而”Disallow:/cgi-bin/”则对 cgi-bin目录的访问进行了声明,拒绝Spiders进入该目录及其子目录。Disallow声明行还具有通配符功能。例如上例中”Disallow:/cgi-bin/”声明了拒绝搜索引擎对cgi-bin目录及其子目录的访问,而 “Disallow:/bob”则拒绝搜索引擎对/bob.html和/bob/indes.html的访问(即无论是名为bob的文件还是名为bob的目录下的文件都不允许搜索引擎访问)。Disallow记录如果留空,则说明该网站的所有部分都向搜索引擎开放。

空格 & 注释

在robots.txt文件中,凡以”#”开头的行,均被视为注解内容,这和UNIX中的惯例是一样的。但大家需要注意两个 问题:

1)RES标准允许将注解内容放在指示行的末尾,但这种格式并不是所有的Spiders都能够支持。譬如,并不是所有的Spider s都能够正确理解”Disallow: bob#comment”这样一条指令。有的Spiders就会误解为Disallow的是”bob#comment”。最好的办法是使注解自成一行。

2) RES标准允许在一个指令行的开头存在空格,象”Disallow: bob #comment”,但我们也并不建议大家这么做。

Robots.txt文件的创建:

需要注意的是,应当在UNIX命令行终端模式下创建Robots.txt纯文本文件。好的文本编辑器一般都能够提供UNIX 模式功能,或者你的FTP客户端软件也“应该”能够替你转换过来。如果你试图用一个没有提供文本编辑模式的HTML编辑器来生成你的robots.txt纯文本文件,那你可就是瞎子打蚊子――白费力气了。

对RES标准的扩展:

尽管已经提出了一些扩展标准,如Allow行或Robot版本控制(例如应该忽略大小写和版本号),但尚未得到RES工作组 的正式批准认可。

附录I. Robots.txt用法举例:

使用通配符”*”,可设置对所有robot的访问权限。

User-agent: *

Disallow:

表明:允许所有搜索引擎访问网站下的所有内容。

User-agent: *

Disallow: /

表明:禁止所有搜索引擎对网站下所有网页的访问。

User-agent: *

Disallow: /cgi-bin/Disallow: /images/

表明:禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。需要注意的是对每一个目录必须分开声明。

User-agent: Roverdog

Disallow: /

表明:禁止Roverdog访问网站上的任何文件。

User-agent: Googlebot

Disallow: cheese.htm

表明:禁止Google的Googlebot访问其网站下的cheese.htm文件。

上面介绍了一些简单的设置,对于比较复杂的设置,可参看一些大型站点如CNN或Looksmart的robots.txt文 件(www.abc.com /robots.txt, www.abc.com /robots.txt)

附录II. 相关robots.txt文章参考:

1. Robots.txt常见问题解析

2. Robots meta Tag的使用

3. Robots.txt检测程序Robots.txt常见问题解析:

我们开发了一个针对robots.txt文件的“验检程序”,同时又设计了一个搜索程序,专门下载robots.txt文件,以此对新推出的这个“robots.txt验检程序”进行测试。在对DMOZ(ODP)中所链接的站点进行遍历,共计检索24 0万个站点后,我们总共找到了大概75k的robots.txt文件。

在这些robots.txt文件中,我们发现了大量的而且是形形色色的问题。有超过5%的robots.txt文件使用了错 误格式,有超过2%的文件由于使用的是极其拙劣的格式而导致无法为任何SPIDER读取。我们将发现的一些问题在下面列出来供大 家参考借鉴:

错误1―语法混用

例如:

User-agent: *

Disallow: scooter

正确语法应为:

User-agent: scooter

Disallow: *

错误2―一行Disallow声明多个目录

这是一个比较常见的错误。我们发现很多网站在其robots.txt中,在一个Disallow指令行中放入了多个目录。譬 如:Disallow: /css/ /cgi-bin/images/

绝大多数的spiders对上述声明行都无法做出正确的解析,有些Spiders会忽略其空格而解析为/css//cgi-bi n//images/,或只解析/images/或/css/,或者根本不予解析。

正确的语法应为:

Disallow: /css/

Disallow: /cgi-bin/

Disallow: /images/

错误3―在DOS模式下编辑robots.txt文件

这也是一个比较常见的错误。正确的做法应该是在UNIX模式下编辑你的robots.txt文件并以ASCII码格式上传。显然并非所有的FTP客户端软件都能够天衣无缝地将文件格式转换为UNIX命令行终端,所以在编辑robots.txt文件时,一定要确保你的文本编辑器是在UNIX模式下。

错误4―在指示行末尾加注

在robots.txt文件中,凡以”#”开头的行,均被视为注解内容,这和UNIX中的惯例是一样的。例如:Disall ow: /cgi-bin/ # this bans robots from our cgi-bin

虽然根据RES标准,在指示行的末尾加注是可行的,但这种格式在过去却并非所有的Spiders都能够支持,有些Spide rs干脆就把整个句子视为注解内容直接跳过去不读。当然我们知道现如今搜索引擎基本上都能够支持这种格式,不过―仍有可能无法被某些搜索引擎正确解读,你冒得起这个险吗?我们建议在编辑robots.txt文件时,最好让注解自成一行。

错误5―指令行前有空格

例如”Disallow:/cgi-bin/”,虽然RES标准并未对这种格式予以特别说明,但我们对这种格式是持极力反对态度的。同样的问题摆在你面前 你冒得起无法被Spiders正确解读的险吗?

错误6–404重定向至另一页面

一般没有robots.txt的网站会将对robots.txt文件的调用请求转至另一页面。这种重定向通常不会产生服务器状态错误或重定向状态信息。然而因为是Spiders自己决定它看到的是robots.txt文件还是一个.html文件。虽然理论上应该不会有什么问题,不过为了保险起见,不妨在你服务器的顶级目录下放一个空的robots.txt文件。在www.google.com/bot.html下,也提供了相同的建议―“如欲避免网络服务器日志中的出错信息‘找不到文件’,可在其根域下创建一个空的robots.txt文件。”

错误7―声明自相矛盾

例如:

USER-AGENT: EXCITE

DISALLOW:

虽然RES标准忽略大小写(CaseSensitive),但目录和文件名却是大小写敏感的。所以对于”USER-AGENT”和”DISALLOW”指令,用大小 写都是可以的。但对于所声明的目录或文件名却一定要注意大小写的问题。

错误8―列出所有文件

这也是一种常见错误,不厌其烦地将目录下文件全数列出。例如:

Disallow: /AL/Alabama.html

Disallow: /AL/AR.html

Disallow: /Az/AZ.html

Disallow: /Az/bali.html

Disallow: /Az/bed-breakfast.html

其实,上面这么多声明行只需用目录选项来替代:

Disallow: /AL

Disallow: /Az

需要注意的是:反斜杠”/”表示禁止搜索引擎进入该目录。如果只有几十个文件需要设置访问权限,那倒也无可厚非。问题是我们发现有一个robots.txt文件中列出了有400k,多达4,000个文件。我们只是纳闷看到这么多声明,有多少Spide rs会掉头而去。

错误9―自创ALLOW指令

没有ALLOW指令,只有DISALLOW指令!我们发现有这样的用法:

User-agent: Spot

Disallow: /john/

allow: /jane/

正确写法应为:

User-agent: Spot

Disallow: /john/

Disallow:

错误10―对声明的目录无反斜杠标识

例如我们发现有这样的例子:

User-agent: Spot

Disallow: john

对这样的记录Spider该怎么反应?按照RES标准,Spider会将名为”john”的文件和名为”john”的目录都 DISALLOW。所以要记得使用”/”来标识所声明的路径(目录)。

我们还发现,有些网站的优化工作做得真彻底,竟然在其robots.txt中也放了关键词(费解,不明白他们怎么想的)。这 些人一定是把他们的robots.txt纯文本文件当作是html文件了。(要记住:在FrontPage下是不可能正确创建r obots.txt文件的)

错误11―网络服务器端的错误配置

为什么对robots.txt文件的调用请求会产生一个二进制文件?只有网络服务器或FTP客户端软件错误设置的情况下才可 能发生这种错误。建议大家定期检查自己的robots.txt文件(http:/www.abc.com /robots.txt)。

服务器/域名“农场”

搜索引擎检测服务器或域名“农场”(即包含巨量站点)的一个简单途径是看它们的robots.txt。我们发现规模在400 到500个域名的大型域名“农场”,其“库”内站点使用都是同一个robots.txt文件。这也就相当于告诉搜索引擎这些使用同一robots.txt文件的站点是相关联的。

Google率先支持通配符:

Google是第一家能够支持robots.txt中通配符文件扩展名的搜索引擎。例如:

User-agent: googlebot

Disallow: *.cgi

不过注意了,由于目前只有Google能够支持这种格式,所以”USER-AGENT”只能是“Googlebot”。

seo的基本知识-SEO相关(2)

针对移动端智能小程序的优化推广成为移动端互联网营销推广的一个非常重要的方法,百度智能小程序的推广然后在搜索引擎获得相应的关键词搜索流量也是非常值得seoer去研究的,今天和朋友们分享一下seoer必须要了解的智能小程序搜索知识解析,主要内容转载自百度搜索资源平台。

>

搜索是一个复杂的系统,了解一些基础搜索知识,有助于开发者少走弯路。

百度搜索引擎原理:了解搜索引擎工作原理,可以更好的指导开发者,提高智能小程序和网站的搜索友好性。百度搜索引擎工作原理主要包括资源抓取、页面分析、建立索引、搜索排序。

1、资源抓取:指百度蜘蛛对开发者主动提交的资源,以及互联网发布的资源进行抓取和存储的过程,为搜索结果展现提供了基础数据支持。

2、页面分析:对抓取的资源进行信息提取和分析处理,包括TDK参数和页面正文信息、服务价值等,为精准匹配搜索用户需求提供参考。

3、建立索引:参考页面分析情况,建立URL索引、关键词索引关系,同时索引库分层级存储,便于不同搜索关键词需求下快速定位资源页面。

4、搜索排序:结合用户搜索需求、页面因素、索引关系(存储层级),综合计算得到搜索排序。

百度蜘蛛(UA/IP):智能小程序抓取蜘蛛,即智能小程序UA/IP,开发者要正确识别抓取蜘蛛,确保未针对其进行任何封禁设置,正常访问返回码为200,访问异常时可能会返回404、503等。识别方式参考《轻松两步,教你快速识别百度蜘蛛》。

robots文件:开发者可通过 robots 文件声明智能小程序中不想被搜索引擎收录的部分,如果您的智能小程序高度开放,完全可以不必设置robots文件。智能小程序robots设置参考《robots协议介绍》

索引量与流量:索引量是指智能小程序资源中可以被搜索用户搜索到的资源量,流量是指智能小程序资源在百度APP内搜索结果中的点击量。

首先需要澄清,索引量的下降,不一定会带来流量下降。

因为基于智能小程序资源内容质量和服务价值,百度搜索会对智能小程序资源进行分层管理,内容质量和服务价值越高,层级越高,在搜索中被展现和被用户点击的可能性越大,从而获取更多的搜索流量收益。搜索会定期评估资源情况更新分层,同时对质量差和服务价值低的底层资源进行删除,因而索引量数据可能会下降,被删除的该类资源在搜索中被展现和被点击的可能性很小,所以一般不会影响流量收益。

搜索排序:搜索结果的排序策略一直是严格保密的,智能小程序的介入,让排序策略进一步复杂化。

1、传统排序原则:时效性、权威性、内容丰富度,以及与用户需求的相关性匹配度永远是搜索排序不变的考量因素。

2、优待浏览和服务体验好的智能小程序:由于智能小程序给搜索用户带来了浏览和服务体验增益,所以在N个搜索结果得分相近的情况下,搜索会优先展现智能小程序的结果。

3、优待性能稳定的智能小程序:百度搜索非常重视搜索结果的稳定性,H5结果的死链问题,智能小程序的白屏、加载失败等问题严重影响用户体验,不仅造成用户流失,更有可能被搜索限制展现。

4、优待用心经营用户的智能小程序:百度搜索希望搜索用户可以通过智能小程序获得更好的服务,同时为智能小程序经营用户提供了诸多能力,对于认真经营用户的智能小程序会有更多的倾斜扶持。开发者可参考《智能小程序用户经营工具大全》,链接地址:https://smartprogram.baidu.com/developer/collegetopic.html?id=41。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
 

关键词: seo的基本知识
 
推荐图文
最新热点文章