wordpress网站如何建立robots.txt文件
wordpress网站如何建立robots.txt文件
WordPress博客程序robots.txt文件中的“Disallow”命令与“noindex”作用是完全不相同的,robots.txt文件可以阻止搜索引擎抓取网站页面,但不一定可以阻止网站页面索引,但将图片和文档素材排除在外。
所以很多程序不再使用robots.txt文件规则禁止网站页面进行搜索索引,而是使用noindex标记,有助于搜索引擎可以正确分发你的网站内容。
建议保持robots.txt干净 ,不要阻止包括以下任何内容:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-content/plugins/
Disallow: /wp-includes/
WordPress官方也表示说robots.txt文件不应该禁止网站被搜索索引,/wp-content/plugins/和/wp-includes/目录中包含网站主题和插件所需要显示的图像、js文件及css文件,阻止这些目录被搜索索引意味着主题和插件图片、JS文件、CSS文件将被阻止,导致不能正常显示,使得搜索引擎将难以分析和理解你网站的内容,所以,如果你的网站程序为WordPress,凌哥建议不要阻止/wp-content/themes/和/wp-includes/程序目录。
简单地讲,虽然禁止WordPress上传和插件目录,可以提高网站的安全性,防止网站被黑客攻击,但实际的作用却是弊大于利的,特别是在网站优化方面。
以上就是凌哥建议删除robots.txt文件中禁止搜索索引规则的原因,同时凌哥也建议大家卸载WordPress程序的不安全插件。
建议包含Sitemap文件
凌哥强烈建议大家手动将XML站点地图文件提交给搜索引擎站长平台,同时也建议大家将网站XML地图文件添加到robots.txt文件中,可以帮助搜索引擎快速抓取网站页面。
Sitemap: https://www.seoxyg.com/sitemap.xml
Sitemap: https://www.seoxyg.com/sitemap.html
Robots.txt的其他规则
为了WordPress网站安全,凌哥建议大家阻止WordPress程序的readme.html、licence.txt和wp-config-sample.php目录文件的抓取,避免未授权人员查看你WordPress网站程序版本。
User-agent: *
Disallow: /readme.html
Disallow: /licence.txt
Disallow: /wp-config-sample.php
还可使用robots.txt文件针对不同搜索引擎设置出不同robots规则,如下所示:
# block Googlebot from crawling the entire website
User-agent: Googlebot
Disallow: /
# block Bingbot from crawling refer directory
User-agent: Bingbot
Disallow: /refer/
禁止搜索蜘蛛抓取WordPress网站页面,凌哥建议大家可以加入以下robots规则。
User-agent: *
Disallow: /?s=
Disallow: /search/
host&Crawl-delay是您考虑使用其它的robots.txt文件指令,虽然这个用的比较少,第一指令的意思是允许你指定网站首选域名(www或非www域名)。
User-agent: *
#we prefer non-www domain
host: yourdomain.com
以下robots.txt文件规则是用于告诉搜索蜘蛛在每次抓取网站页面之前需待几秒钟。
User-agent: *
#please wait for 8 seconds before the next crawl
crawl-delay: 8
完整的WordPress网站robots.txt文件,可参考:
根据以上的讲解,我们可将网站robots.txt文件内容编写如下:
User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /readme.html
Disallow: /licence.txt
Disallow: /wp-config-sample.php
Disallow: /refer/
Disallow: /?s=
Disallow: /search/
#we prefer non-www domain(填入你的网站域名首选域名,一般带www,请根据实际情况填写,部分搜索引擎不支持此规则,慎重添加)
host: yourdomain.com
#please wait for 8 seconds before the next crawl(填入你希望爬虫爬取页面的延迟秒数)
crawl-delay: 8
Sitemap: https://www.seoxyg.com/sitemap.xml
注意:以上WordPress网站完整的robots.txt文件规则仅供参考,大家可以根据自己网站实际情况再完善编写,User-agent: *规则可适用于所有搜索引擎,Allow: 规则代表的意思是允许搜索蜘蛛抓取,Disallow:则代表不允许搜索蜘蛛抓取,host:规则用于指定网站首选域名,crawl-delay:规则则是用于规定搜索蜘蛛抓取的时间间隔,Sitemap:用于指定网站地图文件。
原创文章,作者:凌哥SEO,如若转载,请注明出处:https://www.seoxyg.com/7630.html