要解决这些疑问就要从根本上了解搜索引擎是怎么处理抓取来的网站内容的。
搜索引擎的“索引”也被称为预处理。搜索引擎蜘蛛抓取来的内容是不会在用户搜索的时候实时展现给用户的,因为这么做的计算量实在太大。搜索引擎的做法是将抓取来的页面进行预处理,然后在为最后的查询排名做准备。
搜索引擎的预处理分为以下步骤:1.提取文字
由于搜索引擎蜘蛛抓取的是页面的HTML代码,里面包含了大量的HTML标签、js等无法用到排名上的内容,所以搜索引擎索引首先要做的就是把其中的HTML标签、js去掉,保留剩下的页面文字内容。
比如下面网页上的这段HTML代码:
除去HTML代码之后,剩下用于排名的文字为:
搞点seo,纸上得来终觉浅,绝知此事要躬行,实战教程,软件测评,石头漫画
Tips:除了文字外,搜索引擎索引时也会提取出一些包含文字信息的代码。比如图片替代文字,也就是通常所说的ALT标签(不懂的同学可以请教百度哦)或者flash文件替代文字、链接锚文字等。
所以在seo优化中做好图片的alt标签优化也是很重要的一点哦。
2.中文分词
中文分词是中文搜索引擎特有的步骤,英文单词之间会有空格作分隔,而中文词与词之间没有分隔符号,一个句子字与词都是连在一起的。中文搜索引擎必须首先分辨那几个字组成一个词,哪些字本身就是一个词。比如“健身方法”将被分词为“健身”和“方法”两个词。
而中文分词的方法为“词典匹配”与“统计匹配”。
词典匹配是将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,其中汉字如果与词典中的词条匹配成功,则可以分出一个单词。
统计匹配则是分析大量网络上出现的文字样本,计算出字与字之间相邻的概率,概率越高就越可能称为一个词,这么做让搜索引擎对于网络上新出现的词反应更加迅速。
我们seo工作人员要做的就是用H1标签、黑体等这些方式提示搜索引擎按照我们的意思来分词,注意不要滥用。
3.去停止词
在页面内容中会存在很多对内容没有任何影响的词,比如“的”、“之”、“却”、“啊”之类。
搜索引擎在索引时会把这些词去掉,让页面内容的主题更加突出。
4.去重(为什么伪原创弊大于利)
搜索引擎为了减少搜索结果中出现的重复内容会选取页面内容中出现频率最高的词,通常会选出10个左右关于页面的关键词来计算页面的“指纹”。
了解这点之后就可以发现,在经过去重之后,那些所谓的伪原创比如增加一些“的”、“然而”之类的无意义词,调换段落顺序或者替换一些词语都不能改变一篇文章的特征关键词,也就骗不过搜索引擎。
有的人也会采取大量替换文章中的近义词和混合多篇文章的方式进行伪原创,这种方式是有可能骗过搜索引擎。但是这种文章关键词不明确而且读起来完全不通顺,seo优化是在保证用户体验的基础上迎合搜索引擎,这样自己都读不下去的文章对你的网站又有什么积极作用呢?
伪原创只不过是在互联网上制造垃圾罢了。
5.索引
经过以上步骤之后,搜索引擎就可以提炼出可以代表一个页面内容的一些关键词,同时记录这些词在页面上的出现频率、出现次数、格式、位置等信息。
在搜索引擎中,每一个页面都是一串关键词,其中每个关键词的频率、格式、权重信息都将记录在案。
6.链接关系计算
当页面中存在链接时,搜索引擎会计算这些链接都只想哪些页面,每个页面都有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了 网站和页面的链接权重。
这些链接关系也是百度计算权重的重要依据之一,至于百度权重和链接分析会在以后的文章中专门介绍。
7.页面质量判断
在这个阶段,搜索引擎会对页面内容质量、链接质量等作出判断,比如百度的绿萝、石榴算法。
质量判断包含很多因素,并不仅仅只是关键词的提炼与计算,或者对链接的质量度进行判断。比如在内容页中,很可能包括了用户体验、排版、广告分布、页面打开速度等因素的判断。