Saturday, January 7, 2012

如何控制搜索引擎机器人

那岂不是很高兴能留在你的网站告诉搜索引擎蜘蛛抓取工具,使您的网站排名第一的一些代码?不幸的是,robots.txt文件或robots元标记不会做,但他们可以帮助抓取工具访问您的网站索引
更好地屏蔽掉不需要的的。

首先一个小的定义解释:

搜索引擎蜘蛛,爬行 - 一个网络爬虫(也被称为网络蜘蛛)是一个程序,在浏览有条不紊,自动化的方式万维网。网络爬虫主要用于建立一个由搜索引擎后处理复制的所有访问过的网页,将下载的网页索引,提供快速搜索。

一个网络爬虫是一种类型的机器人,或软件代理。在一般情况下,它以一个网址,访问。由于访问这些网址后,确定在页面中的所有超链接,并增加了他们的网址列表,访问,浏览网页递归根据一系列政策。

robots.txt的 - 这些机器人排除标准或robots.txt协议是一种惯例,以防止乖巧访问一个网站的全部或部分网络蜘蛛和其他网络机器人。指定的信息不应该访问是在一个文件中指定的部分称为该网站的顶级目录的robots.txt。

该robots.txt协议是纯粹的咨询,以及对网络机器人的合作为依托,使这标志着与您的网站的robots.txt出界并不保证隐私区域。许多网站管理员已被抓获了试图利用机器人文件以一个网站看不到的世界各地的私处。然而,文件必然是公开,很容易被任何人检查与网络浏览器。

该模式是通过简单的robots.txt子比较匹配,因此应小心,以确保模式匹配的目录有最后的'/'字符追加:否则所有与该名称将匹配的子串出发,而不是只是那些在文件中目录意。

元标记 - 元标记是用于提供有关数据的结构化数据。

早在2000年,搜索引擎转向摆脱对元标记的依赖,因为许多网站中使用不适当的关键字,或者是获得任何关键字堆砌,所有车辆可能。

一些搜索引擎,但是,仍然需要考虑到一些Meta标签时,提供的结果。近年来,搜索引擎已经变得更加聪明,惩罚那些作弊网站(通过重复几次相同的关键字在搜索中获得的排名提升)。而不是去了排名,这些网站中的排名会下降,或者在某些搜索引擎,将被踢出的搜索引擎完全关闭。

索引网站 - 抓取您的网站和收集信息的行为。

模式匹配的目录有最后的'/'字符追加:否则所有与该将匹配的子串,而不是只在目录名的文件的目的出发。

元标记 - 元标记是用于提供有关数据的结构化数据。

早在2000年,搜索引擎转向摆脱对元标记的依赖,因为许多网站中使用不适当的关键字,或者是获得任何关键字堆砌,所有车辆可能。

一些搜索引擎,但是,仍然需要考虑到一些Meta标签时,提供的结果。近年来,搜索引擎已经变得更加聪明,惩罚那些作弊网站(通过重复几次相同的关键字在搜索中获得的排名提升)。而不是去了排名,这些网站中的排名会下降,或者在某些搜索引擎,将被踢出的搜索引擎完全关闭。

索引网站 - 抓取您的网站和收集信息的行为。

如何才能robots.txt文件和元标记帮助你吗?

在robots.txt你可以告诉有害的'网络爬虫'离开你的网站单,并给予有益的提示,那些你想要抓取您的网站。下面是一个如何禁止一个网络爬虫来搜索您网站的例子:

#此标识韦巴克机
用户代理:ia_archiver
不允许:/

ia_archiver是为韦巴克机,你可能听说过履带式名称和/后不允许告诉ai_archiver不索引你网站的任何。在#允许你写自己的意见让你可以保持你所输入的轨道。

一个网站的TS无形到世界各地。然而,文件必然是公开,很容易被任何人检查与网络浏览器。

该模式是通过简单的robots.txt子比较匹配,因此应小心,以确保模式匹配的目录有最后的'/'字符追加:否则所有与该名称将匹配的子串出发,而不是只是那些在文件中目录意。

元标记 - 元标记是用于提供有关数据的结构化数据。

早在2000年,搜索引擎转向摆脱对元标记的依赖,因为许多网站中使用不适当的关键字,或者是获得任何关键字堆砌,所有车辆可能。

一些搜索引擎,但是,仍然需要考虑到一些Meta标签时,提供的结果。近年来,搜索引擎已经变得更加聪明,惩罚那些作弊网站(通过重复几次相同的关键字在搜索中获得的排名提升)。而不是去了排名,这些网站中的排名会下降,或者在某些搜索引擎,将被踢出的搜索引擎完全关闭。

索引网站 - 抓取您的网站和收集信息的行为。

如何才能robots.txt文件和元标记帮助你吗?

在robots.txt你可以告诉有害的'网络爬虫'离开你的网站单,并给予有益的提示,那些你想要抓取您的网站。下面是一个如何禁止一个网络爬虫来搜索您网站的例子:

#此标识韦巴克机
用户代理:ia_archiver
不允许:/

ia_archiver是为韦巴克机,你可能听说过履带式名称和/后不允许告诉ai_archiver不索引你网站的任何。在#允许你写自己的意见让你可以保持你所输入的轨道。

No comments:

Post a Comment