當(dāng)前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

robots.txt文件怎么寫才正確呢?

 2020-11-24 11:09  來源: A5專欄   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

曾慶平SEO在前面的文章中講過robots.txt概念的時候,留下一個問題:為什么曾慶平SEO的robots.txt寫得那么復(fù)雜?

曾慶平SEO的robots.txt:http://www.***seo.com/robots.txt 這樣做的目的是,讓搜索引擎看來網(wǎng)站更規(guī)范和權(quán)威。

1、用robots.txt屏蔽相似的頁面或沒內(nèi)容的頁面。

我們知道,搜索引擎收錄網(wǎng)頁后,會對網(wǎng)頁進(jìn)行“審核”,當(dāng)網(wǎng)頁的相似度很高時2個頁面,搜索引擎會刪除其中一個。

假如以下這兩個鏈接,內(nèi)容其實(shí)差不多,所以第一個鏈接應(yīng)該屏蔽。 http://www.xxx.com/bbs/redirect.php?tid=5167&goto=lastpost#lastposthttp://www.xxx.com/bbs/thread-5167-1-1.html

第一個的鏈接非常多,屏蔽時,只要屏蔽/bbs/redirect.php? 就屏蔽了所有的。代碼如:Disallow: /bbs/redirect.php?

類似這樣的頁面,沒有內(nèi)容,也應(yīng)該屏蔽:http://www.xxx.com/index.php?sid=247304&lang=zh&action=writecomment&id=77&artlang=zh 這樣的鏈接也很多,屏蔽時,只要屏蔽/index.php?sid= 就屏蔽了所有的。

代碼如:Disallow: /index.php?sid=

2、用robots.txt屏蔽多余的鏈接,當(dāng)動態(tài)和靜態(tài)共存時,一般去掉動態(tài)的。

網(wǎng)站中經(jīng)常會存在多個鏈接指向同一個頁面,這種情況普遍存在時,會讓搜索引擎對網(wǎng)站的權(quán)威性產(chǎn)生懷疑。通過robots.txt把非主要的鏈接去掉。

假如以下兩個鏈接指向同樣的頁面,去掉次要的第一個。

http://www.xxx.com/space.php?username=曾慶平seo

http://www.xxx.com/space-uid-15.html

代碼如:Disallow: /space.php?username=

特別需要注意的是,首頁一般有這么幾個鏈接:www.yongfengseo.com www.yongfengseo.com/index.html 等,這個時候,不要屏蔽 index.html。因?yàn)槿鏸ndex.html index.php 等是默認(rèn)首頁,屏蔽可能導(dǎo)致蜘蛛爬取錯亂。

咱們需要做的是,在給首頁做站內(nèi)外鏈接時,統(tǒng)一用不帶index.html 的http://www.yongfengseo.com/ 即可。這是URL標(biāo)準(zhǔn)化的概念。

3、用robots.txt屏蔽死鏈接。

死鏈接就是原來存在,后來因?yàn)楦陌婊蚋碌染壒蕜h除了的鏈接和網(wǎng)頁。比如,原來在某個目錄(假設(shè)目錄為/tempweb/)下的所有鏈接,因?yàn)楦陌娆F(xiàn)在都變?yōu)樗梨溄恿耍梢杂胷obots.txt屏蔽。

代碼如:Disallow: /tempweb/

4、用robots.txt屏蔽可能存在的“被K”外部鏈接。

很多網(wǎng)站允許用戶放自己的網(wǎng)站鏈接,但因?yàn)檫^多的“被K”外部鏈接可能連累自己。所以,很多把所有外部鏈接放入一個鏈接目錄下,然后通過robots.txt統(tǒng)一屏蔽。

如果你對Disallow:的具體操作辦法不是很清楚,你可以從這里了解我之前發(fā)布的robots文章。

本文來自微信公眾號:平哥SEO優(yōu)化(qingpingseo) 原文鏈接:http://www.yongfengseo.com

申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
robots文件
robots.txt技巧
robots

相關(guān)文章

  • robots協(xié)議怎么寫 作用是什么?

    robots協(xié)議也叫robots.txt(統(tǒng)一小寫)是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件,它通常告訴網(wǎng)絡(luò)搜索引擎的漫游器(又稱網(wǎng)絡(luò)蜘蛛),此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被搜索引擎的漫游器獲取的,哪些是可以被漫游器獲取的。

    標(biāo)簽:
    robots
  • robots具體應(yīng)該禁止些什么文件

    今天大概總結(jié)一下:首先說明一點(diǎn):每天百度派出的蜘蛛是有限的,robots寫出來是為了節(jié)省蜘蛛資源讓蜘蛛能更快的進(jìn)行有效爬取和收錄!

  • robots文件編寫秘籍 新手必看

    當(dāng)我們的網(wǎng)站上線之后,一定會有一些不想讓百度抓取的頁面、文件,針對這種問題,我們就要使用協(xié)議去屏蔽。那么這個協(xié)議是什么?究竟怎么寫這個協(xié)議呢?

    標(biāo)簽:
    robots文件
    robots
  • 百度站長平臺檢測robots.txt 提示301錯誤代碼 怎么解決

    如果以上都沒有錯誤,那么你就要檢查你的CDN了,很可能是因?yàn)镃DN緩存而造成的,或者是你配置了https,而站長平臺卻綁定的http,無法訪問,這兩點(diǎn)自己排查,如果以上都做到,那么是不會提示這類錯誤的,當(dāng)然也不排查百度站長平臺本身的問題,不過這種機(jī)率性很小。

  • 網(wǎng)站robots文件沒做好帶來的影響不可小視

    網(wǎng)站優(yōu)化過程非常容易忽視的一個就是robots文件,因?yàn)槿绻W(wǎng)站徹底不做robots文件好像也沒有多大影響,但不做好這個文件,引起的問題可不能小視。

    標(biāo)簽:
    robots文件
    robots

熱門排行

信息推薦