plurk 2010-4-12 21:26
robots.txt 配置說明
網站這麼多東西,也許會有些東西是不想被搜尋到的,比方說只是要暫時上傳到空間、或是開一個目錄拿來放現在正在進行測試的網站等等,又不能直接關掉權限,因為還是需要能夠存取,這種情況又不希望被登記到搜尋引擎裡面弄亂我的網站索引。所以就需要用到robots.txt這個檔案。
<P> </P>
<P> 其實Google在這部分<A href="http://www.google.com.tw/support/webmasters/bin/answer.py?answer=40360&ctx=sibling" target=_blank><FONT color=#0066cc>說得滿清楚了</FONT></A>。以下我整理出一些要點。</P>
<OL>
<LI>robots.txt 必須存放在網域的根目錄。
<LI>語法:User-Agent 和 Disallow。意思就是「你不要誰(User-Agent)來存取哪些東西(Disallow)?」
<LI>googlebot特有語法:Allow,讓google某些bot搜尋剛剛你有Disallow過的特定資料。
<LI>使用「*」來代表一串任意字元
<LI>使用「$」表示 URL 的結尾字元(副檔名)</LI></OL>
<P> <BR><STRONG>範例:</STRONG></P>
<P>所有robots無法檢索目錄folder1<BR><CODE>User-Agent:*<BR>Disallow: /folder1/</CODE></P>
<P><CODE></CODE> </P>
<P>所有robots無法檢索目錄folder1但可以檢索裡面的myfile.html<BR><CODE>User-Agent:*<BR>Disallow: /folder1/<BR>Allow:/folder1/myfile.html</CODE></P>
<P><CODE></CODE> </P>
<P>無法檢索特定檔案<BR><CODE>User-Agent:*<BR>Disallow: /private_file.html</CODE></P>
<P><CODE></CODE> </P>
<P>無法檢索特定檔案類型<BR><CODE>User-Agent:*<BR>Disallow: /*.gif$</CODE></P>
<P><CODE></CODE> </P>
<P>無法檢索動態產生的網頁<BR><CODE>User-Agent:*<BR>Disallow: /*?</CODE></P>
<P><CODE></CODE> </P>
<P>只讓google adsense檢索某網頁<BR><CODE>User-Agent:*<BR>Disallow:/folder1/</CODE><BR><CODE><BR>User-Agent:MediaPartners-Google<BR>Allow:/folder1/</CODE></P>
<P><CODE></CODE> </P>
<P>攔截所有以 private 開頭之子目錄的存取<BR><CODE>User-Agent:Googlebot<BR>Disallow:/private*/</CODE></P>
<P> <BR><STRONG>常用User-Agent列表(Robots):</STRONG></P>
<UL>
<LI><FONT color=#0066cc>Googlebot</FONT>:Google 網頁索引及新聞索引
<LI>MediaPartners-Google:Google Adsense 索引網頁以決定廣告內容
<LI>Googlebot-Mobile:Google手機網頁索引
<LI>Googlebot-Image:索引網站裡的圖片
<LI>Adsbot-Google:索引廣告主的廣告網頁來看品質如何
<LI>Feedfetcher-Google:Google的Feed/RSS索引
<LI><FONT color=#0066cc>MSNBot</FONT>:MSN 索引機器人
<LI>del.icio.us-thumbnails:del.icio.us的網站縮略圖擷圖robot
<LI>Yahoo-Blogs:Yahoo部落格索引
<LI>Yahoo-MMAudVid:Yahoo多媒體檔案索引
<LI>YahooFeedSeeker:Yahoo的Feed/RSS索引</LI></UL>
<P> </P>
<P>From: http://blog.nownews.com/hana/tbview.php?file=72638</P>