搜索引擎的蜘蛛人(ROBOTS)秘密

2016-01-29 12:12 2 1 收藏

搜索引擎的蜘蛛人(ROBOTS)秘密,搜索引擎的蜘蛛人(ROBOTS)秘密

【 tulaoshi.com - Html 】

我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。


对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。  


一、    robots.txt

1、 什么是robots.txt?


robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。


当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。


robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

网站 URL
 相应的 robots.txt的 URL
 
http://www.w3.org/
 http://www.w3.org/robots.txt
 
http://www.w3.org:80/
 http://www.w3.org:80/robots.txt
 
http://www.w3.org:1234/
 http://www.w3.org:1234/robots.txt
 
http://w3.org/
 http://w3.org/robots.txt

本新闻共9页,当前在第1页  1  2  3  4  5  6  7  8  9  

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/html/)

来源:https://www.tulaoshi.com/n/20160129/1485048.html

延伸阅读
标签: Java JAVA基础
  package coreservlets; import java.io.*; import javax.servlet.*; import javax.servlet.http.*; import java.net.*; public class SearchEngines extends HttpServlet { public void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { String searchString = request.get...
标签: ASP
    不知你上网时注意到没有:一些内容丰富的网站,总建有一个内容搜索引擎;一些大型的商业网站或者综合网站,都配有强大的网站搜索引擎,比如搜狐、新浪、雅虎等等。其方便的搜索查询功能至今给人们留下难以磨灭的印象,你只要输入你想浏览资料的关键字(比如:网页),一按“搜索”按钮,关于“网页”的资料列表就呈现在...
标签: Web开发
    描述 嵌入在你的web页面中的导航元素能够降低你的搜索引擎评价排名并且降低你的网站的响应性能。本文作者想同你一起探讨如何使用AJAX技术来解决这两个问题。 许多设计良好的web站点都包含大量的与实际内容相联系的可导航信息。用于导航的HTML标记能影响你的搜索引擎评价,而且能够改进访问者的页面下载体验感。在本文...
标签: Web开发
在制作搜索引擎的时候、或者做页面分析及数据提取的时候,经常面临页面中存在许多javascript,而页面内容,相当一部分写入到了这些js脚本的命令中,而导致正常的DOM分析失败,无法提取所需的信息。 当然,如果这个页面模板确定,针对这个页面制作信息提取模板也不很难,每个页面人工的分析出需要提取的信息的位置,然后制作模板。可是对于g...
描述 嵌入在你的web页面中的导航元素能够降低你的搜索引擎评价排名并且降低你的网站的响应性能。本文作者想同你一起探讨如何使用AJAX技术来解决这两个问题。 许多设计良好的web站点都包含大量的与实际内容相联系的可导航信息。用于导航的HTML标记能影响你的搜索引擎评价,而且能够改进访问者的页面下载体验感。在本文中,你会看到如...

经验教程

896

收藏

46
微博分享 QQ分享 QQ空间 手机页面 收藏网站 回到头部