其次就是给出网站地图地址,让搜索引擎去爬取地图,快速收录页面。
因为默认搜索引擎是可以抓取所有的文件的,所以通常我们写robots文件就告诉搜索引擎不去抓取哪些文件,这里主要给出比较有代表性的几个程序的robots文件,各位可以按照自己的程序情况进行修改。
现在主流的程序都有相应的百度结构化插件,所以个人以为在robots文件里写入网站地图意义已经不是太大了,本文就不讲这方面的内容了。
织梦CMS程序
User-agent: * //这里*指本协议针对所有搜索引擎,实际使用时删除本文本。
Disallow: /include // Disallow是不允许,不允许收录include文件夹下的所有文件
Disallow: /member
Disallow: /plus
Disallow: /templets
Disallow: /data
Disallow: /uploads
Disallow: /images
Disallow: /404.html
Allow: /plus/search.php // Allow是允许
Disallow: /include
Disallow: /js
Disallow: /s*t8/
*代表任意字符,后台地址建议以上面的形式填写,否则就暴露后台地址了。
这是织梦cms系统程序,这些都应该写进robots去,如果你还有其他文件需要屏蔽蜘蛛,请自行添加。
discuz论坛程序
discuz程序的robots写法可以参考他们的官方论坛http://www.discuz.net/robots.txt
#
# robots.txt for Discuz! X3.2
#
User-agent: *
Disallow: /api/
Disallow: /data/
Disallow: /source/
Disallow: /install/
Disallow: /template/
Disallow: /config/
Disallow: /uc_client/
Disallow: /uc_server/
Disallow: /static/
Disallow: /admin.php
Disallow: /search.php
Disallow: /member.php
Disallow: /api.php
Disallow: /misc.php
Disallow: /connect.php
Disallow: /forum.php?mod=redirect*
Disallow: /forum.php?mod=post*
Disallow: /home.php?mod=spacecp*
Disallow: /userapp.php?mod=app&*
Disallow: /*?mod=misc*
Disallow: /*?mod=attachment*
Disallow: /*mobile=yes*
WordPress博客程序
WordPress程序robots写法可以参考本站:http://www.ftdx.net/robots.txt
User-agent:*
Disallow:/*/wp-admin/
Disallow:/*/wp-includes/
Disallow:/*/wp-content/plugins/
Disallow:/*/wp-content/themes/
Disallow:/*/feed/
Disallow:/*/tag/
Disallow:/*/page/
Disallow:/*/author/
因为本站还有一个二级目录的WordPress博客,所有每一个目录前面加了*,表示任意目录的这个文件夹都不准收录。
以上即是织梦、discuz和WordPress的robots文件代码,老规矩,懒人直接点这里下载。