和黑人做爰下边好大舒服了,jlzzjlzz亚洲乱熟在线播放,日韩人妻无码精品久久久不卡,亚洲а∨天堂久久精品2021

天璐網(wǎng)絡(luò)-10年專(zhuān)注網(wǎng)站建設(shè),網(wǎng)絡(luò)營(yíng)銷(xiāo),品牌推廣,軟件開(kāi)發(fā)等服務(wù)!
行業(yè)資訊

robot.txt是什么

2019年03月05日 來(lái)源:天璐網(wǎng)絡(luò) 瀏覽:659

說(shuō)起robot.txt文件相信站長(zhǎng)朋友們應(yīng)該不會(huì)陌生,幾乎每個(gè)網(wǎng)站的根目錄下都有這樣一個(gè)文件,但是真正了解它的人卻非常少,那么,robot.txt是什么?我們就一起通過(guò)文章內(nèi)容了解下吧。

robot.txt是什么

robot.txt是什么?

robots.txt是一個(gè)協(xié)議,是搜索引擎訪問(wèn)網(wǎng)站時(shí)第一個(gè)要查看的文件,它存在的目的是告訴搜索引擎哪些頁(yè)面能被抓取,哪些頁(yè)面不能被抓取。

當(dāng)spider訪問(wèn)一個(gè)站點(diǎn)時(shí),會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,spider會(huì)按照文件中的內(nèi)容來(lái)確定訪問(wèn)的范圍;如果該文件不存在,所有的spider將能夠訪問(wèn)網(wǎng)站上所有沒(méi)有被口令保護(hù)的頁(yè)面。

具體介紹:

1、User-agent用于描述搜索引擎robot的名字。在\robots.txt\文件中,如果有多條User-agent記錄說(shuō)明有多個(gè)robot會(huì)受到\robots.txt\的限制,對(duì)該文件來(lái)說(shuō),至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*,則對(duì)任何robot均有效,在\robots.txt\文件中,\User-agent:*\這樣的記錄只能有一條。

360搜索支持user-agent命令,包括使用通配符的user-agent命令。

2、Disallow命令指定不建議收錄的文件、目錄。

Disallow值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項(xiàng)的值開(kāi)頭的URL不會(huì)被 robot訪問(wèn)。

3、Allow命令指定建議收錄的文件、目錄。

Allow值用于描述希望被訪問(wèn)的一組URL,它的值也可以是一條完整的路徑,也可以是路徑的前綴,以Allow項(xiàng)的值開(kāi)頭的URL 是允許robot訪問(wèn)的。

User-agent: * 這里的*代表所有的搜索引擎種類(lèi),*是一個(gè)通配符,*也可以替換成其他的蜘蛛名稱(chēng),例如:Googlebot、yisouspider,表示屏蔽特定搜索引擎的蜘蛛

Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄

Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄

Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄

Disallow: /cgi-bin/*.htm 禁止訪問(wèn)/cgi-bin/目錄下的所有以\.htm\為后綴的URL(包含子目錄)。

Disallow: /*?* 禁止訪問(wèn)網(wǎng)站中所有包含問(wèn)號(hào)(?) 的網(wǎng)址

Disallow: /.jpg$ 禁止抓取網(wǎng)頁(yè)所有的.jpg格式的圖片

Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。

Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄

Allow: /tmp 這里定義是允許爬尋tmp的整個(gè)目錄

Allow: .htm$ 僅允許訪問(wèn)以\.htm\為后綴的URL。

Allow: .gif$ 允許抓取網(wǎng)頁(yè)和gif格式圖片

Sitemap: 網(wǎng)站地圖,告訴爬蟲(chóng)這個(gè)頁(yè)面是網(wǎng)站地圖

了解了robot.txt是什么后相信大家也可以在日常工作中很好的利用。不過(guò)還有一些注意事項(xiàng)是需要大家引起重視的,以免出現(xiàn)錯(cuò)誤。

TAG: