您好,欢迎来到中国博客联盟!这里只收录优秀独立博客,纯手工审核机制!
点此可加入QQ群交流建站心得!中国博客联盟QQ交流群快速加群按钮  中国博客联盟QQ交流群快速加群按钮 / 登录 / 注册 / 找回密码
当前位置:中国博客联盟 » 站长资讯 » 建站技巧 » 文章详细

SEO学习—搜索引擎怎样排名的?

来源:扬少博客 浏览:1866次 时间:2014-08-16

搜索引擎工作主要分为三步,蜘蛛抓取页面,预处理分析页面建立索引,排名处理。用户在搜索引擎输入搜索词后,排名程序就会启动,计算出所找到的所有页面,并对其排名显示。排名处理过程主要包括:



一.处理用户搜索词



输入搜索词后,搜索引擎会对这些词做一个处理。分为以下几个步骤:


(1) 中文分词。将输入字内容按照特有的中文分词技术进行词与词的关键字组合。


(2) 去停止词,搜索引擎在自己抓取页面时,会进行去停止词处理,同样对用户输入的搜索词也会进行去停止词。去掉那些没有用的诸如“的”、“地”、“得”等词,提高效率。


(3) 指令处理,我们在输入搜索词时,可能会连续输入几个关键词。搜索引擎会默认在词与词之间使用“与”逻辑。举个例子,假设输入“学习方法”。首先分词会分为“学习”与“方法”。接下来搜索引擎就会认为我们找的页面时既包含“学习”又包含“方法”的页面。而不是单独只包含其中一个词的页面。但是,如今在实际使用过程中其实我们还是会发现一部分只包含部分关键词的搜索结果。


(4) 错误矫正处理。这个功能大家其实也很熟悉了,经常在使用百度搜索时,不小心打了错别字,百度会在上方提示一些正确的内容。如图1.1所示:

图1.1 错误矫正处理图1.1 错误矫正处理



(5) 整合搜索触发。如果在搜索引擎输入明星姓名可能同时会搜索出一些图片或者视频页面,或者八卦信息,新闻资讯等等内容。这种形式称为整合搜索触发。搜索词处理阶段会计算出什么词会触发整合搜索。



二.文件匹配



搜索引擎经过处理,得到一些以词为基础的关键词。就会进行文件匹配,所谓文件匹配,是指搜索引擎利用事先在抓取页面完成后进行分析“索引”之后会记录下关键词和页面文件的对应关系,会找出所有包含该关键词的文件。如图2.1所示。


图2.1 倒排索引快速文件匹配

图2.1 倒排索引快速文件匹配


当我们输入关键词1时,搜索引擎会迅速找到与之对应的所有页面。当输入关键词2和关键词3时,也能迅速找到包含两个关键词的所有页面。



三.初始子集选择



如果只是根据搜索词就能进行排名处理的话,那数据量还是会很困难的。一个关键词可能能找到与之相关的数万甚至数十万、百万的页面,这对搜索引擎来说要在很短时间内计算出排名显然还是困难的。


其实在实际使用中我们不难发现,很多人搜索内容时,一般只会搜索前几页。很少有人会一直点击“下一页”找下去。百度通常也只提供76页的搜索结果。如图3.1所示

图3.1 百度76页搜索结果图3.1 百度76页搜索结果

那么搜索引擎如何挑选的这些结果呢?根据关键词也许会找到数以万计的页面,搜索引擎通过文件匹配会知道这些页面的一些特征。其中就包含了页面权重。会挑选出页面权重高的页面进行计算。这个过程就被称为“初始子集“,所以页面权重对页面来说是特别重要的。



四.相关性计算



对SEO来说,相关性优化尤其重要。计算相关性是搜索引擎排名时最重要的一步。也是学SEO必须知道的一个概念。


(1) 关键词常用度。经过前面的步骤,搜索引擎会得到主要的关键词,但是其中的每个关键词都是有各自的影响。越是常用的词意义就越小,反之,越不常用的意义就越小。举个例子,搜索“我们网络技术“。”我们“这个词在互联网上包含的页面太多了,这个词的贡献度意义就不大,而”网络技术“比起”我们“来,页面包含的会少,贡献度就很大。搜索引擎会对贡献度高的词加权。不常用的词加权系数高,也会给予更多的关注。


(2) 密度和词频。关键词在正文中出现的次数越多,就证明页面与搜索词的相关性就越大。但是不能刻意的去做关键词堆积(刻意的重复出现关键词)。但是在程度上一直有较大区别,所以对相关性的重要度较低。


(3) 关键词的位置与形式。关键词放在页面内容的50-100个字符内,或者出现的位置越重要,说明相关性就越大。或者出现在标题标签、黑体内容等地。关键词形式。


(4) 距离。就是不同关键词之间的距离。完整连续的出现时,相关性最大。例如“搜索引擎优化“连续出现就是零距离,”搜索引擎与优化“距离就是1。


(5) 页面权重与链接分析。页面权重越高就越相关,搜索词为锚文的链接越多,相关性也越大。



五.排名过滤与调整



有些利用作弊手段优化的网站,会被搜索引擎惩罚。即使因为页面权重高和相关性大的原因,本来可以拍在前面,但由于利用不正常的作弊手段,仍然会被搜索引擎甩在后面去。



六.显示排名


 
排名计算完毕,就会按照页面排版格式自动生成用户所看见的搜索结果显示。包括页面标题,说明,快照等。如图6.1所示。

 图6.1 搜索结果页面显示格式图6.1 搜索结果页面显示格式


七.搜索缓存



当所有用户搜索同一个关键词时,如果每次都去计算排名,是很大的浪费,例如发生热门新闻时,也许同一时间会有很多人重复搜索完全相同的关键词。为了重新计算排名,搜索引擎会把热门关键词存入缓存,搜索时直接调用,这样能节约很大时间和提供效率。



八.查询及点击日志



搜索引擎会记录搜索用户的IP地址、搜索的关键词,搜索时间,点击页面等,形成日志文件。这些数据将会对搜索引擎以后的更新、判断、算法调整等都具有重要意义。








推荐博客

  • 云际Colaue's Blog云际Colaue's Blog

    本站作为全球第一家以分享社工技术为主的网站,完全出于站长兴趣爱好、此博客用于分享社工案例,为的是提高公 民的社会工程学攻击防范意识。所有技术类文章除特别说明外均为本站原创,本站所有资源均为学习、交流使用,不 得用于任何商业用途。若由于研究学习本站文章件而带来的损失,本站不负任何责任。 如果本站有文章违

    www.colaue.top
  • 姜维博客姜维博客

    姜维的个人博客!

    www.hello2099.com
  • 小鑫博客小鑫博客

    本博客资源虽来源于网络本博客资源亲测有效无毒才会发出最专业的资源收集分享平台,小白学习最前线

    321it.cn
  • SankuraoSankurao

    心绪记录

    www.sankurao.com
  • Jeekgood博客Jeekgood博客

    Jeekgood博客-记录互联网生活和知识分享!

    www.jeekgood.com
×
图标按钮