ADJ網路實驗室
打印

[介紹] 什麼是 Robots META 標籤?

什麼是 Robots META 標籤?

我們知道,搜尋引擎都有自己的「搜尋機器人」(ROBOTS),並通過這些ROBOTS在網絡上沿著網頁上的連結 (一般是http和src連結 )不斷抓取資料建立自己的數據庫。 對於網站管理者和內容提供者來說,有時候會有一些站點內容,不希望被ROBOTS抓取而公開。為了解決這個問題,ROBOTS開發界提供了兩個辦法:一個是robots.txt,另一個是The Robots META標籤。

 

這邊主要介紹 Robots META 標籤~~

 

Robots META標籤

1、什麼是Robots META標籤

Robots.txt文件主要是限制整個站點或者目錄的搜尋引擎訪問情況,而Robots META標籤則主要是針對一個個具體的頁面。和其他的META標籤(如使用的語言、頁面的描述、關鍵詞等)一樣,Robots META標籤也是放在頁面的中,專門用來告訴搜尋引擎ROBOTS如何抓取該頁的內容。

 

2、Robots META標籤的寫法:

Robots META標籤中沒有大小寫之分,name="Robots" 表示所有的搜尋引擎,可以針對某個具體搜尋引擎寫為 name="Mediapartners-Google"。

content部分有四個指令選項:index、noindex、follow、nofollow,指令間以「,」分隔。

 

INDEX 指令告訴搜尋機器人抓取該頁面;FOLLOW 指令表示機器人可以沿著該頁面上的連結繼續抓取下去;Robots Meta標籤的缺省值是INDEX和FOLLOW,只有inktomi除外,對於它,缺省值是INDEX,NOFOLLOW。

 

要注意的是:上述的robots.txt和Robots META標籤限制搜尋引擎機器人(ROBOTS)抓取站點內容的辦法只是一種規則,需要搜尋引擎機器人的配合才行,並不是每個ROBOTS都遵守的。

 

目前看來,絕大多數的搜尋引擎機器人都遵守robots.txt的規則,而對於Robots META標籤,目前支持的並不多,但是正在逐漸增加,如著名搜尋引擎GOOGLE就完全支持,而且GOOGLE還增加了一個指令「archive」,可以限制GOOGLE是否保留網頁快照。

 

例如:表示抓取該站點中頁面並沿著頁面中連結抓取,但是不在GOOLGE上保留該頁面的網頁快照






TOP

ARTERY.cn