SEO新手入门系列（四）：搜索引擎相关知识

这是《SEO新手入门系列系列》的第四篇内容，前面一篇已经把搜索引擎的工作原理作了简单的介绍，可能看过我以前文章的朋友会发现，有些内容其实是已经写过的，但是为什么还要再写呢？其实我也有想过这个问题，有时一篇文章写一个知识点的时候，并不会很全面，即使很多篇文章写相同的知识点，也不一定会有重复，可以用不同的角度去写，有时候写着写着就会发现新的想法，这篇文章又继续写到搜索引擎爬虫，但是我尽量用不同角度去描述，如果有相似的内容就会少写点，直接附上链接，可以自己去看看。

Robots.txt

如果要说到搜索引擎蜘蛛，那肯定不能不提robots.txt，因为 Search Engine Spider (搜索引擎爬虫)来到网站第一件事就是去访问这个文件，下面有几点需要注意的地方：

robots.txt文件是大小写敏感的，不要写成Robots.txt或者robots.TXT，这样都是不行的
这个文件必须放在网站根目录下
不要把一些后台管理登录界面放在这个文件内，因为这个文件是谁都可以访问的
可以把sitemap的地址放在这个文件内最底部的位置
不是所有搜索引擎爬虫都会遵守这个“君子协定的”
二级域名如subdomain.example.com都需要放置自己独立的robots.txt文件

使用robots.txt文件对于SEO来说是最基础的一步，也是最重要的一步，怎么重要？要是设置不好真的会让搜索引擎不收录你的网站的，不信的可以看看我前一段时间写的《错误的robots文件设置对SEO的影响》，就是因为错误设置了robots规则，导致搜索引擎收录下降，还好只是设置错了一个规则，如果搜索引擎读取了错误的robots.txt文件，那很有可能整个网站就不收录了，可以看看《robots.txt文件介绍》学习下robots文件的书写规则。

sitemap文件

sitemap.xml和robots.txt是直接和搜索引擎蜘蛛打交道的两个文件，sitemap主要告诉搜索引擎网站有哪些页面，robots主要告诉搜索引擎哪些网页不能访问，可以看看《Sitemap的作用是什么-SEO基础》学习下怎么写sitemap文件，我比较懒，使用的是wordpress插件生成的，再配合搜索引擎自动提交代码。

百度sitemap收录

蜘蛛行为分析

前面已经说过robots.txt文件的重要性，下面我给大家分析下蜘蛛的行为，搜索引擎的蜘蛛和现实的蜘蛛很像，他们都是顺着自己的网爬，而搜索引擎蜘蛛的网就是URL地址，我们的网站内部，就是要把这个网做好，让蜘蛛能顺利的抓取每一个重要的网页，我在很多文章中提过，蜘蛛来到我们网站，都会有一个固定的时间，不可能无限制的爬取，我们要尽量把网页结构安排合理，像我这种个人博客，从内容页到主页，一般就是3层结构，目录树太深，蜘蛛很难一次爬完，现在市面上的网站大多都是这种层级，只要经过鼠标的两次点击，一般就能找到内容页。

其实还有很多琐碎的内容，但是不打算写在这篇文章，以后会专门写一篇来介绍一些其它细节。

Robots.txt ​

sitemap文件 ​

蜘蛛行为分析 ​

Robots.txt

sitemap文件

蜘蛛行为分析