您好,欢迎来到中国博客联盟!这里只收录优秀独立博客,纯手工审核机制!
点此可加入QQ群交流建站心得!中国博客联盟QQ交流群快速加群按钮  中国博客联盟QQ交流群快速加群按钮 / 登录 / 注册 / 找回密码
当前位置:中国博客联盟 » 站长资讯 » 建站技巧 » 文章详细

SEO学习—搜索引擎是怎样工作的?

来源:扬少博客 浏览:1714次 时间:2014-08-14

大家都会使用搜索引擎搜索自己需要的信息,但是搜索引擎上面所显示的网站到底是怎么来的呢?用户输入关键词后,点击|“搜索”后,几乎马上就会弹出所找到的页面,但是你知道吗?这个过程其实是经过了非常复杂的计算的,今天大体介绍一下搜索引擎是如何工作的。


一:爬行于抓取


对于搜索引擎来说,爬行和抓取是第一步,说到爬行,就不得不说说一种叫做“蜘蛛”的程序。所谓搜索引擎蜘蛛,其实是模仿用户使用浏览器的过程。首先发出页面访问请求,服务器就将返回HTML代码。蜘蛛会把这些代码存入原始页面数据库。一般为了提高速度,搜索引擎都会使用多个蜘蛛进行爬行。可以把蜘蛛想象成一个正在使用浏览器看网站的用户。


在网站的根目录之中,有一个文件名为“robots.txt.”,即为robots协议,也叫爬虫协议。蜘蛛访问页面时,会首先对这个文件进行访问。这个协议会告诉蜘蛛该网站是否允许搜索引擎访问,如果禁止访问,蜘蛛是不会对该网站进行访问的。如果把网站看做一个博物馆,这个协议的作用就是门口的“欢迎光临”与“禁止进入”的提示,提醒参观者这里目前是否运行进入参观。


常用的浏览器有IE、360、猎豹、火狐等等众多浏览器,搜索引擎蜘蛛也有自己的名字,用以区分是哪个搜索引擎派出来的蜘蛛,我们可以通过查看日志文件看到这些蜘蛛,下面列举一下蜘蛛名称:


1. 百度蜘蛛:Baiduspider

2. 雅虎中国:Mozilla/5.0

3. 谷歌蜘蛛:Goolebot

4. 360蜘蛛:360Spoder

5. 搜狗蜘蛛:Sougou News Spider


为了抓取到尽可能多的页面,搜索引擎也有自己的爬行方式,一般来说,主要分为两种方式:


1.深度优先:蜘蛛先找到一个链接,沿着这个链接一直向下爬行,一直爬到没有链接到地方,在返回开始的页面,另外选择一个链接继续向下爬行。


2.广度优先:在第一个页面发现很多链接时,先把该页面的链接都看一遍,然后再选择第二层页面继续爬行。


一般在抓取页面时,两种爬行方式都会使用。


二:吸引蜘蛛


互联网上的网站数以亿计,蜘蛛不可能全部爬行完,甚至一个网站里面,蜘蛛也不太可能把该网站里面所有页面全部爬行一边,而SEO所做的就是使蜘蛛尽可能多抓取页面,让更多页面被收录。


一般来说,网站的页面权重高,质量好,资格老,蜘蛛爬行的页面就会更深,更多的页面就会被搜录。详细来说,决定蜘蛛的深度有几种方法,一种是页面的更新度。蜘蛛第一次爬行一个页面时,会把数据存储起来,第二次在来时,发现与第一次数据一样,说明网页没有进行更新,那么蜘蛛就不会经常来,更我们浏览网站一样,如果某个网页经常不更新,我们也就没有再来的兴趣了。经常更新,蜘蛛就会经常来,出现新的链接时,它也会迅速进行访问。另一种是导入链接,无论是外部链接还是内部链接,要出现链接,蜘蛛才会根据链接进入页面。还有一种是与首页的点击距离,网站的首页一般权重最高,距离首页越近,蜘蛛爬行的机会也越大。


三:复制检测


有一些网站的内容有大量的转载与复制,蜘蛛回对一些内容进行检查,如果发现一个网站权重很低,而且有大量的转载或者复制内容时,它可能就不会再爬行了,有些站长即使在日志文件里发现了爬行的记录,但还是没有收录,这也是原因之一。



推荐博客

×
图标按钮