搜索引擎的蜘蛛人（ROBOTS）秘密

2016-01-29 12:12 8 1 收藏

搜索引擎的蜘蛛人（ROBOTS）秘密,搜索引擎的蜘蛛人（ROBOTS）秘密

【 tulaoshi.com - Html 】

我们知道，搜索引擎都有自己的“搜索机器人”（ROBOTS），并通过这些ROBOTS在网络上沿着网页上的链接（一般是http和src链接）不断抓取资料建立自己的数据库。

对于网站管理者和内容提供者来说，有时候会有一些站点内容，不希望被ROBOTS抓取而公开。为了解决这个问题，ROBOTS开发界提供了两个办法：一个是robots.txt，另一个是The Robots META标签。

一、 robots.txt

1、什么是robots.txt？

robots.txt是一个纯文本文件，通过在这个文件中声明该网站中不想被robots访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那么搜索机器人就沿着链接抓取。

robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

网站 URL
相应的 robots.txt的 URL

http://www.w3.org/
http://www.w3.org/robots.txt

http://www.w3.org:80/
http://www.w3.org:80/robots.txt

http://www.w3.org:1234/
http://www.w3.org:1234/robots.txt

http://w3.org/
http://w3.org/robots.txt

本新闻共9页,当前在第1页 1 2 3 4 5 6 7 8 9

来源:http://www.tulaoshi.com/n/20160129/1485048.html

上一篇： Flash AS3教程：组件的组合运用制作FLV播放器
下一篇：《神魔》打造全满暴击攻略

看过《搜索引擎的蜘蛛人（ROBOTS）秘密》的人还看了以下文章更多>>

做个自己站内搜索引擎

标签： PHP

ccterran（原作）作者：iwind 朋友用dreamweaver做了一个网站，没有动态的内容，只是一些个人收藏的文章，个人介绍等等。现在内容比较多了，想叫我帮他做一个搜索引擎。说实在的，这是一个不难的问题，于是就随手做了一个。现在我在其它论坛上也看到有人想做这个，于是就想说说这方面的知识，重在了解一下方法。写程序前...

jsp源码实例4（搜索引擎）

标签： Java JAVA基础

package coreservlets; import java.io.*; import javax.servlet.*; import javax.servlet.http.*; import java.net.*; public class SearchEngines extends HttpServlet { public void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { String searchString = request.get...

搜索引擎页面分析中的 javascript 处理

标签： Web开发

在制作搜索引擎的时候、或者做页面分析及数据提取的时候，经常面临页面中存在许多javascript，而页面内容，相当一部分写入到了这些js脚本的命令中，而导致正常的DOM分析失败，无法提取所需的信息。当然，如果这个页面模板确定，针对这个页面制作信息提取模板也不很难，每个页面人工的分析出需要提取的信息的位置，然后制作模板。可是对于g...

基于AJAX技术提高搜索引擎排名

标签： Web开发

描述嵌入在你的web页面中的导航元素能够降低你的搜索引擎评价排名并且降低你的网站的响应性能。本文作者想同你一起探讨如何使用AJAX技术来解决这两个问题。许多设计良好的web站点都包含大量的与实际内容相联系的可导航信息。用于导航的HTML标记能影响你的搜索引擎评价，而且能够改进访问者的页面下载体验感。在本文...

利用AJAX技术提高搜索引擎排名