您好,欢迎来到中国博客联盟!这里只收录优秀独立博客,纯手工审核机制!
点此可加入QQ群交流建站心得!中国博客联盟QQ交流群快速加群按钮  中国博客联盟QQ交流群快速加群按钮 / 登录 / 注册 / 找回密码
当前位置:中国博客联盟 » 站长资讯 » 建站技巧 » 文章详细

神马搜索Spider介绍

来源:神马开放平台 浏览:4243次 时间:2014-09-11
1. 神马Spider

神马Spider是神马访问互联网,自动化抓取网页的程序。Spider抓取下网页,建立索引,使用户可通过搜索引擎搜索到互联网上的资源。

2. 神马Spider的user-agent及ip地址

user-agent,是http协议中的一个属性,代表了终端的身份。神马Spider的user-agent为:Yisouspider,因为历史原因此user-agent名称将会继续使用。

神马Spider的ip地址是一组ip池,会动态变,因此不在此列举。

3. 神马Spider的网站访问频率

神马会根据网站的规模、服务能力、页面质量、更新速度等因素来决定对网站的访问频率。通常质量高、网页更新快的网站神马spider访问的频率相对会高,以保证高质、时效的能够展现给用户。

4. 神马spider如何发现新网页

神马spider发现新网页的方式有多种,最典型的是在已发现的网页中分析超链关系,选取url并抓取,如此不断拓展,尽可能多的抓取到有价值的网页。另外,神马会从dns服务商处获取新网站域名,能够及时抓取到新建网站。

5. 关于robots协议

robots.txt是搜索引擎访问网站是要访问的第一个文件,以确定哪些网页是允许或禁止抓取的。神马搜索遵守互联网robots协议,如您希望完全禁止神马访问或对部分目录禁止访问,您可以通过robots.txt文件来设置内容,限定神马Spider的访问权限。

robots.txt必须放在网站根目录下,且文件名要小写。

具体的写法:

1) 完全禁止神马Spider抓取:

User-agent: Yisouspider

Disallow: /

2) 禁止神马spider抓取指定目录

User-agent: Yisouspider

Disallow: /update

Disallow: /history

禁止抓取update、history目录下网页

6. 神马Spider是否会造成带宽负担

神马Spider有规范的抓取流程,同时也会考虑网站的忙闲时段来抓取,因此不会给网站造成带宽负担。如您发现名为Yisouspider的user-agent抓取严重影响到了网站的正常访问,您可将该时段的访问日志信息反馈至[email protected],神马同学会将分析结论发送给您。



推荐博客

  • 追梦繁星追梦繁星

    May The Force Be With You,一个努力学习中的技术型博主。

    leeyd.top
  • 中意眼镜工作室中意眼镜工作室

    郑州中意眼镜工作室是由眼科医院视光部主任创办的视光工作室,为顾客提供个性化的验配方案,本博客是记录一个验光师的日常

    www.yanjingweb.cn
  • 资源屋博客资源屋博客

    资源屋(ZY5WEB.CN)是一个资源分享博客,主要分享网站源码,活动优惠,网络技术,网赚资讯等。努力打造一个高质量分享平台。

    www.cuteant.cn
  • 小苍老师小苍老师

    精彩阅读尽在苍蓝OL原创文学小苍老师博客,苍蓝OL提供原创诗歌,散文,杂文,微小说,热议点评等免费阅读!现在苍蓝OL小苍老师博客原创文学广泛收稿啦!

    www.cunlanlog.com
  • 常州精密钢管博客常州精密钢管博客

    常州精密钢管博客专注于帮助网友解决:钢铁材料,钢管,无缝钢管,精轧钢管,精密钢管,精密无缝钢管,精密无氧退火管.等等相关技术,资料,标准,行规,经验,等等的问题,精密钢管技术要求,精轧钢管技术要求,精拉钢管技术要求,无氧退火管技术要求,国内钢管技术要求,外贸钢管技术要求.

    www.josen.net
×
图标按钮