頁面分詞
百度首先抓取頁面后獲取到頁面內(nèi)容然后對頁面進(jìn)行分詞處理,第一步就是去除停止詞(停止詞就是乃、乃至、乃至于、么、之、之一等等)。停止詞對于網(wǎng)站實際主體來說無任何意義,所以百度第一步就是去除停止詞。然后就是根據(jù)詞性標(biāo)注、過濾處理、需求分析、屬性標(biāo)注、搜索出來等進(jìn)行頁面分詞處理,然后對應(yīng)到頁面上。
內(nèi)容質(zhì)量評測
抓取頁面后進(jìn)行內(nèi)容質(zhì)量評測,內(nèi)容質(zhì)量搜索引擎主要從內(nèi)容獲取、內(nèi)容完整性、信息真實性和有效性等幾方面來進(jìn)行評測的,如果是搜索結(jié)果頁還會加上搜索詞相關(guān)性等等。
內(nèi)容原創(chuàng)度檢測
內(nèi)容原創(chuàng)度檢測原理是對比詞庫,詞庫內(nèi)容是去停止詞以后的詞類集合,所以百度抓取到頁面以后進(jìn)行分詞處理,得到一個詞集,與詞庫進(jìn)行對比后,匹配越高原創(chuàng)度越低。
網(wǎng)站分類
百度根據(jù)頁面上的聲明標(biāo)簽、內(nèi)容詞聚合度、網(wǎng)站結(jié)構(gòu)等等把網(wǎng)站進(jìn)行分類處理。針對不同分類的網(wǎng)站會采用不同的算法進(jìn)行索引排序。最明顯的一個例子就是移動站和PC站的分類,兩個排序算法是不一致的。
錨文本處理
百度會針對頁面錨文本進(jìn)行分析處理,網(wǎng)站內(nèi)頁的錨文本就是所謂的內(nèi)鏈,針對內(nèi)鏈切忌所有錨文本和連接頁面都一樣,這是很明顯的一個優(yōu)化過度的特征。盡量遵循自然合理的原則去搭建內(nèi)鏈錨文本和鏈接。
網(wǎng)站惡意度檢測
針對幾種惡意類型網(wǎng)站會進(jìn)行檢測,比如BC、QP、CP等黑五類網(wǎng)站或者一些跳轉(zhuǎn)頁面、用戶不友好頁面等等,百度會對這些頁面進(jìn)行判斷,如果存在問題非常可能會進(jìn)行降權(quán)懲罰處理。
內(nèi)容布局檢測
內(nèi)容布局檢測主要是針對網(wǎng)站內(nèi)容結(jié)構(gòu)、關(guān)鍵詞布局等方面,合理的內(nèi)容布局就相當(dāng)于一個房子的地基,地基越穩(wěn)固房子就可以蓋的越高。
廣告檢測
廣告檢測很大程度上主要是為用戶體驗服務(wù)的,如果網(wǎng)站大篇幅、主體內(nèi)容上很多廣告,那么對用戶體驗自然是不友好的,百度會識別這類網(wǎng)站進(jìn)行處理。
SEO風(fēng)險規(guī)避
SEO要做的就是規(guī)避百度蜘蛛抓取檢測后的風(fēng)險問題,這個就算是網(wǎng)站站內(nèi)優(yōu)化調(diào)整的一大部分,而且很多都應(yīng)該是網(wǎng)站上線之前就應(yīng)該做好的。









