搜索引擎抓取您的網(wǎng)站以將內(nèi)容放入其索引中。您的網(wǎng)站越大,抓取時(shí)間越長(zhǎng)。抓取您網(wǎng)站所花費(fèi)的時(shí)間非常重要。如果您的網(wǎng)站有1,000頁(yè)或更少,那么這不是您需要考慮的主題。如果您打算發(fā)展您的網(wǎng)站,在本文中,我們將介紹爬網(wǎng)效率以及您可以采取的措施。所有搜索引擎都以相同的方式抓取。
百度會(huì)在網(wǎng)絡(luò)上的某個(gè)位置找到指向您網(wǎng)站的鏈接。
此時(shí),該URL是虛擬堆的開(kāi)始。之后這個(gè)過(guò)程非常簡(jiǎn)單:百度蜘蛛從那一堆中獲取一頁(yè);它抓取頁(yè)面并索引所有內(nèi)容以供在百度中使用;然后它將該頁(yè)面上的所有鏈接添加到堆中。在抓取過(guò)程中,百度蜘蛛可能會(huì)遇到重定向。它被重定向到的URL在堆上。
您的主要目標(biāo)是確保百度蜘蛛可以訪問(wèn)該網(wǎng)站上的所有網(wǎng)頁(yè)。第二個(gè)目標(biāo)是確??焖僮ト⌒聝?nèi)容和更新內(nèi)容。良好的網(wǎng)站架構(gòu)將幫助您實(shí)現(xiàn)這一目標(biāo)。盡管如此,您仍然可以很好地維護(hù)您的網(wǎng)站。
在談?wù)撆佬袝r(shí),一個(gè)重要的概念是爬行深度的概念。假設(shè)您有1個(gè)鏈接,從您的網(wǎng)站上的1個(gè)網(wǎng)站到1個(gè)網(wǎng)頁(yè)。此頁(yè)面鏈接到另一個(gè),另一個(gè),另一個(gè),等等.百度蜘蛛將繼續(xù)爬行一段時(shí)間。但在某些時(shí)候,它會(huì)決定不再需要繼續(xù)爬行。當(dāng)這一點(diǎn)時(shí),取決于指向第一頁(yè)的鏈接的重要性。
這似乎是理論上的,所以讓我們看一個(gè)實(shí)際的例子。如果您有10,000個(gè)帖子,則所有帖子都屬于同一類別,并且每頁(yè)顯示10篇文章。這些頁(yè)面僅鏈接到“下一個(gè)”和“上一個(gè)”。百度需要抓取1,000頁(yè)深度才能獲得這10,000個(gè)帖子中的第一個(gè)。在大多數(shù)網(wǎng)站上,它不會(huì)這樣做。
這就是為什么重要的是:使用類別/標(biāo)簽和其他分類法進(jìn)行更細(xì)粒度的細(xì)分。不要過(guò)度使用它們。根據(jù)經(jīng)驗(yàn),標(biāo)記僅在連接3個(gè)以上內(nèi)容時(shí)才有用。此外,請(qǐng)確保優(yōu)化這些類別檔案。
鏈接到帶有數(shù)字的更深層頁(yè)面,因此百度蜘蛛可以更快地到達(dá)目的地。假設(shè)你鏈接第1頁(yè)的第1頁(yè)到第10頁(yè)并繼續(xù)這樣做。在上面的示例中,最深的頁(yè)面只有100次點(diǎn)擊遠(yuǎn)離主頁(yè)。
保持您的網(wǎng)站快速。您的網(wǎng)站越慢,抓取的時(shí)間就越長(zhǎng)。
您的站點(diǎn)應(yīng)具有一個(gè)或多個(gè)XML站點(diǎn)地圖。這些XML站點(diǎn)地圖告訴百度您網(wǎng)站上存在哪些網(wǎng)址。一個(gè)好的XML站點(diǎn)地圖還會(huì)指示您上次更新特定URL的時(shí)間。大多數(shù)搜索引擎會(huì)比其他搜索引擎更頻繁地抓取XML站點(diǎn)地圖中的URL。
在百度搜索控制臺(tái)中,XML站點(diǎn)地圖為您提供了額外的好處。對(duì)于每個(gè)站點(diǎn)地圖,百度都會(huì)向您顯示錯(cuò)誤和警告。您可以通過(guò)為不同類型的URL創(chuàng)建不同的XML站點(diǎn)地圖來(lái)實(shí)現(xiàn)此目的。這意味著您可以查看網(wǎng)站上哪些類型的網(wǎng)址出現(xiàn)問(wèn)題最多。
1.許多404和其他錯(cuò)誤
當(dāng)它抓取您的網(wǎng)站時(shí),百度會(huì)遇到錯(cuò)誤。它通常只是從堆中挑選下一頁(yè)。如果您在抓取過(guò)程中網(wǎng)站上有很多錯(cuò)誤,百度蜘蛛會(huì)放慢速度。這樣做是因?yàn)樗ε滤ㄟ^(guò)爬得太快而導(dǎo)致錯(cuò)誤。為防止百度蜘蛛放慢速度,您需要盡可能多地修復(fù)錯(cuò)誤。
百度會(huì)在其網(wǎng)站站長(zhǎng)工具中向您報(bào)告所有這些錯(cuò)誤,360和搜狗也是如此。我們之前已經(jīng)在百度搜索控制臺(tái)和360網(wǎng)站管理員工具中介紹了錯(cuò)誤 。
您不會(huì)是我們看到的第一個(gè)客戶端,它在百度搜索控制臺(tái)中有3,000個(gè)實(shí)際URL和20,000個(gè)錯(cuò)誤。不要讓您的網(wǎng)站成為該網(wǎng)站。至少每個(gè)月定期修復(fù)這些錯(cuò)誤。
2.301重定向過(guò)多
我最近在一個(gè)剛剛完成域遷移的網(wǎng)站上進(jìn)行咨詢。該網(wǎng)站很大,所以我使用我們的一個(gè)工具來(lái)運(yùn)行網(wǎng)站的完整抓取,看看我們應(yīng)該修復(fù)什么。很明顯我們有一個(gè)大問(wèn)題。此站點(diǎn)上的一大組URL始終鏈接到?jīng)]有尾部斜杠。如果您使用不帶尾部斜杠的此類URL,則會(huì)重定向301。您將被重定向到帶有斜杠的版本 。如果您網(wǎng)站上的一個(gè)或兩個(gè)網(wǎng)址存在問(wèn)題則無(wú)關(guān)緊要。實(shí)際上這通常是主頁(yè)的問(wèn)題。如果這是您網(wǎng)站上250,000個(gè)網(wǎng)址的問(wèn)題,那么這就成了一個(gè)更大的問(wèn)題。百度蜘蛛不必抓取250,000個(gè)網(wǎng)址,而是抓取500,000個(gè)網(wǎng)址。這不是很有效率。
這就是為什么在更改網(wǎng)址時(shí)應(yīng)始終嘗試更新網(wǎng)站中的鏈接的原因。如果不這樣做,隨著時(shí)間的推移,您將獲得越來(lái)越多的301重定向。這會(huì)降低您的抓取速度和用戶速度。大多數(shù)系統(tǒng)需要一秒鐘來(lái)服務(wù)器重定向。這會(huì)在頁(yè)面加載時(shí)間上再增加一秒。
3.蜘蛛陷阱
如果您的網(wǎng)站在百度眼中更具權(quán)威性,那么有趣的事情就會(huì)發(fā)生。即使很明顯鏈接沒(méi)有意義,百度也會(huì)抓取它。給百度虛擬相當(dāng)于一個(gè)無(wú)限螺旋樓梯,它將繼續(xù)前進(jìn)。