我已經(jīng)在博客說了學(xué)seo研究算法是愚蠢的行為,但是很多人仍舊來問se的算法問題,其中最多的就是問TF-IDF算法,為了能夠讓大家加深對這個的問題的認知,我因此就深度解析下這個算法的一些問題。
第一點,TF-idf是什么?
TF和IDF是兩個不同的概念,tf通過一個文檔內(nèi)詞項的重復(fù)次數(shù)來表示這個詞項在所有詞項中的重要度,而另一個idf則是一個詞在所有文檔中出現(xiàn)次數(shù)表示這個詞項的重要程度,出現(xiàn)的越多也就是常用詞,由于主題性不強重復(fù)越多重要度越低。TF-IDF是一種統(tǒng)計方法,
用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評級。
這個百科的解釋加上我自己的描述,不知道大家是否很清楚了?總之TF-IDF是通過一定統(tǒng)計意義來表示詞項的重要度的。seo為何很關(guān)注他呢,因為他可能影響檢索詞和搜索詞的相關(guān)性,進而影響排名。
第二點,TF-IDF算法是解決什么的,能起到多大的作用?
其實我們既然研究了這個算法,就不能不去了解這個算法是解決什么的,其實我剛才也說了,它主要解決的就是一個文檔中詞項權(quán)重的問題(很多人都知道這個算法影響排名,卻不知道這個算法為何能影響排名的)。那么我們可以再問下,影響詞項權(quán)重的因素有多少呢?目測大約也就5、6個吧(但是我們都知道幾個呢?),TF-IDF在詞項中占據(jù)什么地位呢?重要度或許可以排在第三位、第四位的樣子(也不是最主要的因素嘛)。而且我一直說的,如果你真的要研究算法,就不僅要研究算法是什么,也要考慮下算法的特征和算法特征的處理,因為他們都影響最終的結(jié)果,比如這個TF-IDF的算法。
第三點,TF-IDF的算法特征是什么
這是人們很少關(guān)注的一點,算法的特征和算法特征的處理之所以重要,是因為凡是算法都會控制因素的影響,或者說進行平滑性處理。這個也不例外,很多人沒有注意到這個影響,或者對這個有了過激的思想,那么就會對很多的seo細節(jié)耿耿于懷,卻不得其解。想學(xué)會這點,我覺得那個谷歌的黑板報很多講算法的時候都說到了,很多實際應(yīng)用模型和理論模型大多都有一定的差距,這就是現(xiàn)實。
第四點,TF-IDF算法再向上,問題的來源是什么,處于檢索的什么地位?
其實,我一直推薦的是跳出算法禁錮,放在更長遠的看待這個問題,比如TF-IDF要解決的問題的根源是什么,這個問題可以在檢索原理中處于什么樣的一個地位,會不會隨著時間而改變……。只要你向上思考,慢慢更多的seo浮出來,那個神馬的TF-IDF也可以慢慢地放棄了。
第五點,算法之外
TF-IDF是用來研究詞項權(quán)重的,早期用來進行相關(guān)性判斷,但是也并不一定一成不變的,比如BM25算法在很多方面都比他更加具有優(yōu)勢。但是隨著檢索技術(shù)的進步,比如語義分析等技術(shù)的發(fā)展,這個算法也會被漸漸限制了起作用的范圍和影響力。這也不能不說研究算法的悲劇。而且,我一直說的是,我們完全可以跳出這個范疇,從問題本身出發(fā)去思考問題,或者更深層的站在檢索的角度觀察這個問題的意義,觀察解決這個問題可行性,觀察結(jié)果和我們所想的差距……嘎嘎,不能再深入……
PS:我最近一直四處飄,也在發(fā)力學(xué)些新東西,所以時間不是很充裕,你所看到的博客我?guī)缀醵际怯兴敕ǖ臅r候,花費了大約30多分鐘一氣呵成的,難免有很多瑕疵,萬勿見怪。我會繼續(xù)更新seo思維進化論系列,里面雖然沒有講技術(shù),但是我覺得還是有些東西值得seoer去思考下的,下面我也打算寫一些seo入門的東西,希望能給一些新人有些幫助。我所做的一切,最主要的目的還是希望大家能冷靜地看待seo,慢慢地回歸正途。
文章來源:公眾號SEO實戰(zhàn)營(ID:ilottecn),原文鏈接:https://mp.weixin.qq.com/s/0Nvt7VQRsNDwuj_gWC7Vow
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!