經(jīng)常聽到做SEO的朋友說(shuō)引蜘蛛,到頭來(lái)很多小白朋友卻不明白是什么意思,其實(shí)這里所說(shuō)的蜘蛛是搜索引擎蜘蛛,專業(yè)點(diǎn)來(lái)說(shuō)就是搜索引擎派出來(lái)抓取索引網(wǎng)站內(nèi)容的程序。
由于這種程序幾乎遍布在互聯(lián)網(wǎng)的任何角落,就像一張蜘蛛網(wǎng),所以SEO業(yè)內(nèi)人士就形象稱其為“蜘蛛”。
引蜘蛛顧名思義就是吸引搜索引擎蜘蛛過(guò)來(lái)抓取咱們網(wǎng)站的內(nèi)容,因?yàn)橹挥形覀兊木W(wǎng)站被搜索引擎抓到并展現(xiàn)出來(lái),才能形成通過(guò)搜索引擎過(guò)來(lái)的流量。
答案是:發(fā)外鏈。
通常來(lái)講,蜘蛛活躍最平凡而且數(shù)量比較多的地方是那些權(quán)重高更新頻繁的網(wǎng)站,比如蜘蛛池、論壇、第三方自媒體博客、分類目錄等。
蜘蛛抓取我們的網(wǎng)站主要是通過(guò)URL過(guò)來(lái),所以我們要將網(wǎng)站的URL放在蜘蛛活躍的地方,通過(guò)發(fā)外鏈的方式將蜘蛛引到我們自己的網(wǎng)站上從而實(shí)現(xiàn)網(wǎng)站被搜索引擎抓取的目的。
一般情況下,剛上線的新站需要引下蜘蛛加速網(wǎng)站收錄,之后我們把SEO做好點(diǎn),讓蜘蛛喜歡上我們的網(wǎng)站之后就不需要再麻煩的去單獨(dú)引蜘蛛了,因?yàn)橹┲霑?huì)慢慢活躍在我們的網(wǎng)站的各個(gè)角落。
一個(gè)網(wǎng)站365天不停地更新,就是為了吸引百度蜘蛛爬行。多多的收錄網(wǎng)站頁(yè)面,達(dá)到百度覆蓋。然后有的時(shí)候每天更新蜘蛛也不過(guò)來(lái)。文章寫得再好也沒(méi)法被收錄,那不收錄的話咋辦呢?
既然蜘蛛不來(lái)網(wǎng)站爬,那咱們就主動(dòng)的把網(wǎng)站提交給蜘蛛,這樣會(huì)更快的讓你的網(wǎng)站被收錄到,達(dá)到一定的時(shí)間后。蜘蛛就會(huì)在每天的同一個(gè)時(shí)間點(diǎn)來(lái)爬行收錄。
①深度優(yōu)先遍歷策略
簡(jiǎn)單理解,深度優(yōu)先遍歷策略主要是指建立一個(gè)起點(diǎn),按照這個(gè)起點(diǎn)的順序,順序抓取鏈條上,沒(méi)有被抓取的每個(gè)節(jié)點(diǎn)。但有的時(shí)候,面對(duì)“無(wú)限循環(huán)”節(jié)點(diǎn)的時(shí)候,這一策略便顯得捉禁見(jiàn)肘。
②寬度優(yōu)先遍歷策略
寬度優(yōu)先便利策略,是早期搜索引擎常用的一種抓取策略,主要流程是提取整個(gè)頁(yè)面中的URL,其中未被抓取的URL,就被放入待抓取列隊(duì),以此循環(huán)。
③PR優(yōu)先策略
RP優(yōu)先策略是一個(gè)非常注明的鏈接分析方法,它用于衡量網(wǎng)頁(yè)的重要性,通常它會(huì)計(jì)算一個(gè)頁(yè)面上URL的PR,按照從高到低的順序進(jìn)行抓取。
由于PR值的計(jì)算,需要不斷的迭代更新,通常這里所采用的都是非完全PageRank策略。
④反鏈策略
反鏈策略,并沒(méi)有一個(gè)明確的官方文檔說(shuō)明,這里小編認(rèn)為,它主要是基于反鏈的數(shù)量以及種子頁(yè)面的權(quán)威度,二者進(jìn)行加權(quán)評(píng)估后,按照優(yōu)先順序抓取。
⑤社會(huì)化媒體分享策略
社會(huì)化媒體分析策略,主要是指一個(gè)URL在社交媒體中的流行度,它的轉(zhuǎn)載量,評(píng)論,轉(zhuǎn)發(fā)量,綜合指標(biāo)的評(píng)估。
言外之意,如果你的URL最先沒(méi)有在百度網(wǎng)址提交,而是出現(xiàn)在社交媒體中,比如:頭條文章,也是很有可能被百度抓取的。
對(duì)于搜索引擎而言,常見(jiàn)的抓取流程包括:種子頁(yè)URL提取->整理新的待抓取URL集合->合并更新鏈接(包括已經(jīng)抓取過(guò)的鏈接)->解析頁(yè)面內(nèi)容->進(jìn)入鏈接總庫(kù)(索引庫(kù))
其中,在解析頁(yè)面內(nèi)容,進(jìn)入索引庫(kù)的時(shí)候,它需要經(jīng)過(guò)多層復(fù)雜的系統(tǒng)計(jì)算,評(píng)估目標(biāo)URL的質(zhì)量,從而決定是否進(jìn)入低質(zhì)量庫(kù)。
對(duì)于合理引導(dǎo)蜘蛛爬行頁(yè)面,具體常見(jiàn)的操作是:
①內(nèi)容更新頻率
理論上,如果你的頁(yè)面更新頻率相對(duì)較高,那么搜索引擎自然爬蟲就是頻繁來(lái)訪,目的是抓取更多潛在的優(yōu)質(zhì)內(nèi)容。
②內(nèi)容更新質(zhì)量
言外之意,如果你長(zhǎng)期頻繁更新低質(zhì)量?jī)?nèi)容,是不可取的,特別是百度爬蟲而言,如果你定期輸出高質(zhì)量且具有稀缺性的內(nèi)容(獨(dú)特的視角)你會(huì)發(fā)現(xiàn)蜘蛛的來(lái)訪頻率很高,并且經(jīng)過(guò)一定周期的信任度累積,很容易達(dá)到“秒收錄”
③網(wǎng)站頁(yè)面穩(wěn)定
服務(wù)器的連通率是決定,搜索引擎蜘蛛是否能夠順利抓取的主要因素,如果你的網(wǎng)站經(jīng)常產(chǎn)生延遲,識(shí)別對(duì)抓取與索引產(chǎn)生重要影響。
④整站目標(biāo)權(quán)重
這是一個(gè)綜合性指標(biāo)的考慮,通常而言,高權(quán)重的站點(diǎn),更受搜索引擎的親睞,蜘蛛抓取的也相對(duì)頻繁,但這個(gè)評(píng)級(jí),并不是咱們SEO專員,簡(jiǎn)單通過(guò)站長(zhǎng)工具查詢的結(jié)果,而是百度自身,一個(gè)非常私密的評(píng)估體系。