广 告 位 招 租 QQ:527116945
当前位置: 首页 » SEO » seo » 正文

黄石seo

放大字体  缩小字体 发布日期:2022-05-28 11:49:31  来源:黄石seo  作者:shi  浏览次数:1
核心提示:黄石seo-百度搜索引擎蜘蛛抓取过程中涉及的网络协议有哪些有时候针对搜索引擎蜘蛛的识别可以间接的反应出网站的一些优化状态,那

黄石seo-百度搜索引擎蜘蛛抓取过程中涉及的网络协议有哪些

有时候针对搜索引擎蜘蛛的识别可以间接的反应出网站的一些优化状态,那么到底怎么样准确的识别出baidu Spider呢,今天和朋友们分享一下百度搜索引擎蜘蛛识别技巧,这个技巧是百度搜索资源平台官方发布的,正文部分算是转载过来的,感兴趣的朋友可以收藏一下。

经常听到开发者问,百度蜘蛛是什么?最近百度蜘蛛来的太频繁服务器抓爆了,最近百度蜘蛛都不来了怎么办,还有很多站点想得到百度蜘蛛的IP段,想把IP加入白名单,但IP不固定,我们无法对外公布。

那怎么才能识别正确的百度蜘蛛呢?只需简单2步,教你正确识别百度蜘蛛:

1.查看UA,如果UA都不对,可以直接判断非百度搜索的蜘蛛,目前UA分为移动、PC、和小程序三个应用场景,这三个渠道UA分别如下:

移动UA:

Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)

PC UA:

Mozilla/5.0(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Mozilla/5.0(compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

小程序UA:

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)

2.反查IP

站长可以通过DNS反查IP的方式判断某只spider是否来自百度搜索引擎。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

1).在linux平台下,您可以使用hostip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以*.baidu.com或*.baidu.jp 的格式命名,非*.baidu.com或*.baidu.jp即为冒充。

2).在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析ip,来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即为冒充。

3).在macos平台下,您可以使用dig命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入dig xxx.xxx.xxx.xxx(IP地址)就能解析ip,来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即为冒充。

原文链接地址:https://ziyuan.baidu.com/college/articleinfo?id=2855

黄石seo-SEO相关(1)

不同行业的网站在搜索引擎排名规则当中所表现的优化操作也是有差异的,比如网站抓取的差异性。今天和朋友们分享一下关于百度搜索引擎抓取的相关问题,比如抓取频次过多或过少,如何判断爬虫IP是否属于百度并对用户站点进行了异常抓取,https站点抓取错误问题等,正文部分转载自百度资源平台。

1、抓取频次过少或过多?

抓起频次是根据网站的质量和内容决定的,建议您关注网站的实际的收录情况,并建议使用链接工具提交网站的优质内容,提交地址:http://zhanzhang.baidu.com/linksubmit/index/。如果网站抓取频次过大,您可以使用抓取频次工具设置百度抓取上限。如果问题依旧存在请点击这篇内容的出处部分所留下的锚文本链接进行反馈,同时建议您参考百度站长社区的相关讨论,百度站长社区地址:http://bbs.zhanzhang.baidu.com/。

2、如何判断爬虫IP是否属于百度并对用户站点进行了异常抓取

建议用户参考百度站长学院的的文章,使用反host的方式查看爬虫ip是否属于使用百度。如百度爬虫对您站造成了错误抓取或抓取频次过大,您可以在抓取频次工具下设置抓取上限或设置robots封禁不想被百度抓取的目录。同时建议您到站长社区参与相关问题讨论,百度站长社区地址:http://bbs.zhanzhang.baidu.com/,并其他站长一起找到更好的解决方案。

3、https网站抓取错误问题

如果网站是http转成https的话,建议先将网站设置http成301到https协议网址下,在使用抓取工具进行诊断。如果网站依旧无法抓取和收录,请点击这篇内容的出处部分所留下的锚文本链接进行反馈。

本篇内容出处地址:https://ziyuan.baidu.com/feedback/index

黄石seo-SEO相关(2)

每个网站的内容并不是完全需要让百度搜索引擎蜘蛛抓取的,为了更好的使得搜索引擎与网站达成一定的协议,在百度搜索引擎蜘蛛抓取的过程中双方建立了一定的规范,这些规范的内容以便于搜索引擎与网站之间的数据处理和对接,通常这种遵守的规范化的协议统称为网络协议。今天小凯SEO博客为朋友们分享一下百度搜索引擎蜘蛛抓取过程中涉及的网络协议有哪些,部分内容转载自百度站长工具平台。

1、http协议和https协议

http协议又称为超文本传输协议,这也是互联网最为常见的一种网络协议,通过客户端和服务器端的请求和应答制定了一系列的标准。在这里客户端一般是指的最终的用户群,服务器端则是指的网站本身。也就是说用户通过互联网浏览器、搜索引擎蜘蛛等向网站指定端口发送出http请求之后,会返回对应的httpheader信息,也就是小凯SEO博客之前所分享的HTTP状态码,通过http状态码就可以看出网站页面的实际状况,比如是否链接成功,服务器类型、网站页面的最近更新时间等等。https协议实际是加密版http,一种更加安全的数据传输协议,很多金融类网站,商城类的网站都会制定这样的数据传输协议,比如淘宝、京东、支付宝等网站。

2、UA属性

UA属性的全称是user-agent,其实UA属性是属于http协议当中的一种属性,主要的代表了终端的身份,向服务器端表明自己是谁,并且表面自己的目的性,使得服务器端可以根据不同身份的终端身份来做出不同的反馈结果。

3、robots协议

robots协议之前在小凯SEO博客当中有专门的博文进行描述,感兴趣的朋友可以去浏览一下。robots协议是以robots.txt文档的形式展现出来的,这个文档也是搜索引擎蜘蛛在抓取网站之前第一个要抓取的网站文件,也就是说搜索引擎蜘蛛来网站抓取网站之前,首先要看一下robots.txt文件当中的内容来确定这个网站哪些内容是可以抓取的哪些内容是不可以抓取的,搜索引擎都是非常严格的按照robots协议对网站执行抓取协议的。

在了解了百度搜索引擎蜘蛛抓取过程中涉及的网络协议之后,对于自己网站的站内SEO优化操作的内容才会有针对性的提供给搜索引擎蜘蛛抓取,不但有利于搜索引擎蜘蛛很快捷方便的抓取主要的网站内容,也使得搜索引擎更加快捷的分辨出网站的主题,这也是集中网站权重的有效SEO优化操作技巧。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
 

关键词: 黄石seo
 
推荐图文
最新热点文章