我已經(jīng)在博客說(shuō)了學(xué)seo研究算法是愚蠢的行為,但是很多人仍舊來(lái)問(wèn)se的算法問(wèn)題,其中最多的就是問(wèn)TF-IDF算法,為了能夠讓大家加深對(duì)這個(gè)的問(wèn)題的認(rèn)知,我因此就深度解析下這個(gè)算法的一些問(wèn)題。
第一點(diǎn),TF-idf是什么?
TF和IDF是兩個(gè)不同的概念,tf通過(guò)一個(gè)文檔內(nèi)詞項(xiàng)的重復(fù)次數(shù)來(lái)表示這個(gè)詞項(xiàng)在所有詞項(xiàng)中的重要度,而另一個(gè)idf則是一個(gè)詞在所有文檔中出現(xiàn)次數(shù)表示這個(gè)詞項(xiàng)的重要程度,出現(xiàn)的越多也就是常用詞,由于主題性不強(qiáng)重復(fù)越多重要度越低。TF-IDF是一種統(tǒng)計(jì)方法,
用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)。
這個(gè)百科的解釋加上我自己的描述,不知道大家是否很清楚了?總之TF-IDF是通過(guò)一定統(tǒng)計(jì)意義來(lái)表示詞項(xiàng)的重要度的。seo為何很關(guān)注他呢,因?yàn)樗赡苡绊憴z索詞和搜索詞的相關(guān)性,進(jìn)而影響排名。
第二點(diǎn),TF-IDF算法是解決什么的,能起到多大的作用?
其實(shí)我們既然研究了這個(gè)算法,就不能不去了解這個(gè)算法是解決什么的,其實(shí)我剛才也說(shuō)了,它主要解決的就是一個(gè)文檔中詞項(xiàng)權(quán)重的問(wèn)題(很多人都知道這個(gè)算法影響排名,卻不知道這個(gè)算法為何能影響排名的)。那么我們可以再問(wèn)下,影響詞項(xiàng)權(quán)重的因素有多少呢?目測(cè)大約也就5、6個(gè)吧(但是我們都知道幾個(gè)呢?),TF-IDF在詞項(xiàng)中占據(jù)什么地位呢?重要度或許可以排在第三位、第四位的樣子(也不是最主要的因素嘛)。而且我一直說(shuō)的,如果你真的要研究算法,就不僅要研究算法是什么,也要考慮下算法的特征和算法特征的處理,因?yàn)樗麄兌加绊懽罱K的結(jié)果,比如這個(gè)TF-IDF的算法。
第三點(diǎn),TF-IDF的算法特征是什么
這是人們很少關(guān)注的一點(diǎn),算法的特征和算法特征的處理之所以重要,是因?yàn)榉彩撬惴ǘ紩?huì)控制因素的影響,或者說(shuō)進(jìn)行平滑性處理。這個(gè)也不例外,很多人沒(méi)有注意到這個(gè)影響,或者對(duì)這個(gè)有了過(guò)激的思想,那么就會(huì)對(duì)很多的seo細(xì)節(jié)耿耿于懷,卻不得其解。想學(xué)會(huì)這點(diǎn),我覺(jué)得那個(gè)谷歌的黑板報(bào)很多講算法的時(shí)候都說(shuō)到了,很多實(shí)際應(yīng)用模型和理論模型大多都有一定的差距,這就是現(xiàn)實(shí)。
第四點(diǎn),TF-IDF算法再向上,問(wèn)題的來(lái)源是什么,處于檢索的什么地位?
其實(shí),我一直推薦的是跳出算法禁錮,放在更長(zhǎng)遠(yuǎn)的看待這個(gè)問(wèn)題,比如TF-IDF要解決的問(wèn)題的根源是什么,這個(gè)問(wèn)題可以在檢索原理中處于什么樣的一個(gè)地位,會(huì)不會(huì)隨著時(shí)間而改變……。只要你向上思考,慢慢更多的seo浮出來(lái),那個(gè)神馬的TF-IDF也可以慢慢地放棄了。
第五點(diǎn),算法之外
TF-IDF是用來(lái)研究詞項(xiàng)權(quán)重的,早期用來(lái)進(jìn)行相關(guān)性判斷,但是也并不一定一成不變的,比如BM25算法在很多方面都比他更加具有優(yōu)勢(shì)。但是隨著檢索技術(shù)的進(jìn)步,比如語(yǔ)義分析等技術(shù)的發(fā)展,這個(gè)算法也會(huì)被漸漸限制了起作用的范圍和影響力。這也不能不說(shuō)研究算法的悲劇。而且,我一直說(shuō)的是,我們完全可以跳出這個(gè)范疇,從問(wèn)題本身出發(fā)去思考問(wèn)題,或者更深層的站在檢索的角度觀察這個(gè)問(wèn)題的意義,觀察解決這個(gè)問(wèn)題可行性,觀察結(jié)果和我們所想的差距……嘎嘎,不能再深入……
PS:我最近一直四處飄,也在發(fā)力學(xué)些新東西,所以時(shí)間不是很充裕,你所看到的博客我?guī)缀醵际怯兴敕ǖ臅r(shí)候,花費(fèi)了大約30多分鐘一氣呵成的,難免有很多瑕疵,萬(wàn)勿見(jiàn)怪。我會(huì)繼續(xù)更新seo思維進(jìn)化論系列,里面雖然沒(méi)有講技術(shù),但是我覺(jué)得還是有些東西值得seoer去思考下的,下面我也打算寫(xiě)一些seo入門(mén)的東西,希望能給一些新人有些幫助。我所做的一切,最主要的目的還是希望大家能冷靜地看待seo,慢慢地回歸正途。
文章來(lái)源:公眾號(hào)SEO實(shí)戰(zhàn)營(yíng)(ID:ilottecn),原文鏈接:https://mp.weixin.qq.com/s/0Nvt7VQRsNDwuj_gWC7Vow
本文來(lái)源:徐州酷優(yōu)網(wǎng)絡(luò)科技有限公司
本文網(wǎng)址:https:///news/faq/919.html
聲明,本站文章均為酷優(yōu)網(wǎng)絡(luò)原創(chuàng)或轉(zhuǎn)載,歡迎分享,轉(zhuǎn)載時(shí)請(qǐng)注明文章作者和“來(lái)源:徐州網(wǎng)站建設(shè)”并附本文鏈接
覆蓋全江蘇省的服務(wù)網(wǎng)絡(luò)
全國(guó)7×24小時(shí)客服熱線
病毒殺出率高于99%
網(wǎng)站可用性高于99.9%
最快網(wǎng)站3天內(nèi)上線