2017年7月7日,百度正式推出“颶風(fēng)算法”,從官方文檔中來看,颶風(fēng)算法的命中對象是站點(diǎn),而不是網(wǎng)頁;主要是針對以惡劣采集為內(nèi)容主要來源的網(wǎng)站,而不是所有包含惡劣內(nèi)容的站點(diǎn)。
哪些內(nèi)容算是惡劣采集?惡劣采集內(nèi)容,一般是指沒有花費(fèi)時間,精力,專業(yè)能力,人工整合的內(nèi)容,或者說對用戶沒有任何附加價值的內(nèi)容。
1、從其他站點(diǎn)采集的內(nèi)容
包括整個頁面內(nèi)容都是采集、主題內(nèi)容是采集,或者多篇采集拼湊成的內(nèi)容。這種類型內(nèi)容很容易被識別。
2、采集之后輕度加工的內(nèi)容
包括修改了部分詞語,修改了部分句子,或者使用單詞批量替換的形式(部分偽原創(chuàng)工具)。這種類型的識別難度稍微大一點(diǎn)。
3、從某些動態(tài)站點(diǎn)采集的內(nèi)容
包括采集其他搜索引擎的搜索結(jié)果,采集新聞feed流。
注意幾個要點(diǎn):主體內(nèi)容、惡劣采集、附加價值。
為什么有些網(wǎng)站也是采集的,但沒有受到影響,比如某doc、某浪。其實(shí)只要做到某個要點(diǎn),就不算是惡劣采集,這個要點(diǎn)就是:給用戶帶來附加價值。附加價值有站點(diǎn)增益和內(nèi)容增益兩種。這個時候可以引用百度搜索技術(shù)博客《淺談互聯(lián)網(wǎng)頁面價值》的一段內(nèi)容:
某人發(fā)表了一篇針對某新聞事件的原創(chuàng)博客,隨后被新浪轉(zhuǎn)載到了新聞頻道。從描述的內(nèi)容上講,這是一種重復(fù)。但這種重復(fù)僅僅是主體內(nèi)容上的重復(fù),一方面它的轉(zhuǎn)載帶來了訪問速度、穩(wěn)定性等方面的增益,并且之后的檢索用戶還有可能用“新聞事件+新浪”來檢索此新聞。這可以被稱之為站點(diǎn)增益。另一方面,它在轉(zhuǎn)載過程中可能會改變頁面的標(biāo)題,而且依托其受眾,在轉(zhuǎn)載頁面上,還有可能出現(xiàn)更多的有價值評論和回復(fù)等,還有可能存在指向其它相關(guān)事件的新聞鏈接。這些可以被稱之為內(nèi)容增益。因此即使主題內(nèi)容沒有任何變化,新浪的這次轉(zhuǎn)載也是有價值的,其稀缺度也是較高的。
同樣,反過來說,如果轉(zhuǎn)載的網(wǎng)站相當(dāng)不知名,則其無法帶來站點(diǎn)名/穩(wěn)定性/速度的增益。更有甚者,轉(zhuǎn)載之后在頁面上加入大量廣告妨礙閱讀,或者只轉(zhuǎn)載了內(nèi)容中不完整的一部分,這樣的轉(zhuǎn)載,或者說采集,就是純重復(fù)的,與采集源相比,就是沒有檢索價值的了。
綜上所述,對于主體內(nèi)容重復(fù)的頁面,我們應(yīng)該評價其是否存在站點(diǎn)增益和內(nèi)容增益,只有對于大量完全無增益的重復(fù)頁面,我們才應(yīng)該認(rèn)為其稀缺度較低。
因此說,只要能夠帶來站點(diǎn)增益,內(nèi)容增益,給用戶帶來附加價值,那就表明這個網(wǎng)頁有其獨(dú)特的價值,是不會被颶風(fēng)算法命中的。自百度推出“颶風(fēng)算法”,首先中招的有這些大家熟悉的站。
7月7日中槍網(wǎng)站,大部分是范文類
7月6日中槍網(wǎng)站,大部分是范文類
躺槍案例:t262.com
躺槍案例:sanwen8.cn
颶風(fēng)算法主要是針對沒有價值的采集,一旦中招沒有任何解法。而被誤傷的優(yōu)質(zhì)原創(chuàng)可以通過反饋中心申訴。
因此,一旦被颶風(fēng)算法命中,只要不是明顯誤傷,短期內(nèi)都沒有辦法解決。(被搜素引擎算法命中,一般都是普遍存在的,不被搜素引擎接受的做法,一般沒辦法申訴,Google也是如此。只有人工處理的能申訴。)
采集會被算法懲罰,而內(nèi)容完全原創(chuàng),成本又非常高。那如何生成內(nèi)容,而又不被颶風(fēng)算法懲罰呢。其實(shí)還是圍繞內(nèi)容增益上去解決,有幾個解決方法:
頁面增加用戶點(diǎn)評模塊,當(dāng)有用戶點(diǎn)評之后,點(diǎn)評內(nèi)容也會成為網(wǎng)頁內(nèi)容的一部分,產(chǎn)生了額外價值。作為用戶,在閱讀完內(nèi)容之后,也希望看一下真實(shí)用戶的意見,比如這個內(nèi)容是否屬實(shí),信息是否失效,有沒有額外的提醒等。不過要注意的是,點(diǎn)評內(nèi)容最好是在源碼中實(shí)現(xiàn),而不是在JS中(方便搜素引擎識別)。
示例:網(wǎng)易新聞跟帖
根據(jù)網(wǎng)頁主題,添加相關(guān)的內(nèi)容模塊,比如延伸閱讀,之前報道,相關(guān)閱讀等。作為用戶,可以更加詳細(xì)完整的了解事件的發(fā)展,比如關(guān)于“張藝興”的一篇新聞,可以了解他之前參加過什么活動,有什么緋聞,參與的極限挑戰(zhàn)的進(jìn)展情況等。這些對用戶來講,都是非常有價值的。實(shí)現(xiàn)思路:一種是人工編輯;一種是算法實(shí)現(xiàn),比如根據(jù)TF-IDF提取出主體關(guān)鍵詞,再拿關(guān)鍵詞去跟歷史內(nèi)容匹配。
示例:網(wǎng)易新聞下的延伸閱讀
根據(jù)主題,將多篇內(nèi)容整合為一篇。跟之前內(nèi)容相比,整合后的內(nèi)容更加豐富,可以滿足用戶更多需求。比如一篇“夢見老虎”的內(nèi)容,如果能夠添加“夢見老虎吃人”、“夢見被老虎追”等內(nèi)容,將會更可能命中用戶的夢境。另一種比較常見的就是專題頁,將相關(guān)主題的內(nèi)容全部組織起來,按照要程度安排內(nèi)容布局。這種專題頁有運(yùn)營小伙伴編輯的,也有程序生成的(使用開源搜索引擎,比如Lucene,Sphinx,Xapian)。
示例:網(wǎng)易 - 香港回歸20周年專題
如果確實(shí)是優(yōu)質(zhì)原創(chuàng)內(nèi)容,還是推薦加入百度原創(chuàng)保護(hù)項(xiàng)目。目前這個項(xiàng)目在內(nèi)側(cè)階段,需要百度邀請加入。
如果你的網(wǎng)站已經(jīng)中了“颶風(fēng)”,如何恢復(fù)網(wǎng)站排名呢?以武漢seo看來,你只能照如此做,然后看百度的反應(yīng)吧。
1、如果你采集了,請自行刪除采集內(nèi)容,并用robots.txt進(jìn)行處理,堅(jiān)持原創(chuàng),坐等百度給你伸出橄欖枝;
2、警告:如果你的內(nèi)容都是抄襲的,而且每天發(fā)布數(shù)量較多(超過100條且沒多少原創(chuàng)),即便沒采集,估計將來也會中颶風(fēng),百度目前的思想是建立一個綠色生態(tài),他老人家并不希望互聯(lián)網(wǎng)上有大量重復(fù)的內(nèi)容,因?yàn)闆]有價值。
3、隨著數(shù)據(jù)的增加,百度也肯定惱火大量重復(fù)內(nèi)容給搜索引擎帶來的困擾,因?yàn)槟闳プ鏊阉饕?,也不希望遇到這種麻煩,成本問題、算法問題、大站建立站群騙取流量問題,都頭疼。
4、時代變了,將來能夠存活下來的站點(diǎn),一定是有較多高質(zhì)量原創(chuàng)內(nèi)容的網(wǎng)站,內(nèi)容為王的時代已經(jīng)開啟革命,也只有這樣,百度才有玩內(nèi)容推介資本,才不會被大量自媒體分走流量和客戶,事關(guān)存亡,百度不會希望中國也出現(xiàn)一個facebook,微信自媒體、頭條等,一個是社交流量,一個是原創(chuàng)生態(tài),都越來越強(qiáng)大。