Tf-idf - Vikipedi
İçeriğe atla
Ana menü
Gezinti
  • Anasayfa
  • Hakkımızda
  • İçindekiler
  • Rastgele madde
  • Seçkin içerik
  • Yakınımdakiler
Katılım
  • Deneme tahtası
  • Köy çeşmesi
  • Son değişiklikler
  • Dosya yükle
  • Topluluk portalı
  • Wikimedia dükkânı
  • Yardım
  • Özel sayfalar
Vikipedi Özgür Ansiklopedi
Ara
  • Bağış yapın
  • Hesap oluştur
  • Oturum aç
  • Bağış yapın
  • Hesap oluştur
  • Oturum aç

İçindekiler

  • Giriş
  • 1 Motivasyonlar
  • 2 Tanım
    • 2.1 Terim Sıklığı
    • 2.2 Ters belge sıklığı
    • 2.3 Terim sıklığı–ters belge sıklığı
  • 3 IDF'nin gerekçesi
  • 4 Bilgi teorisiyle bağlantı
  • 5 tf-idf Örneği
  • 6 Terimlerin ötesinde
  • 7 Türevler
  • 8 Ayrıca bakınız
  • 9 Kaynakça
  • 10 Dış bağlantılar ve önerilen okumalar

Tf-idf

  • العربية
  • Català
  • Čeština
  • Deutsch
  • English
  • Español
  • Eesti
  • Euskara
  • فارسی
  • Français
  • עברית
  • Bahasa Indonesia
  • İtaliano
  • 日本語
  • 한국어
  • Norsk bokmål
  • Polski
  • Português
  • Română
  • Русский
  • Українська
  • Tiếng Việt
  • 中文
  • 粵語
Bağlantıları değiştir
  • Madde
  • Tartışma
  • Oku
  • Değiştir
  • Kaynağı değiştir
  • Geçmişi gör
Araçlar
Eylemler
  • Oku
  • Değiştir
  • Kaynağı değiştir
  • Geçmişi gör
Genel
  • Sayfaya bağlantılar
  • İlgili değişiklikler
  • Kalıcı bağlantı
  • Sayfa bilgisi
  • Bu sayfayı kaynak göster
  • Kısaltılmış URL'yi al
  • Karekodu indir
Yazdır/dışa aktar
  • Bir kitap oluştur
  • PDF olarak indir
  • Basılmaya uygun görünüm
Diğer projelerde
  • Vikiveri ögesi
Görünüm
Vikipedi, özgür ansiklopedi

Bilgi almada (information retrieval), tf-idf (ayrıca TF*IDF, TFIDF, TF-IDF veya Tf-idf ), terim sıklığı-ters belge sıklığı ifadesinin kısaltmasıdır ve bir koleksiyon veya gövdedeki [en] bir belge için bir kelimenin öneminin ölçüsüdür; bazı kelimelerin genel olarak daha sık göründüğü gerçeği göz önünde bulundurularak ayarlanmıştır.[1] Kelime torbası modeli gibi, bir belgeyi kelime sırası [en] olmaksızın, çoklu [en] kelime kümeleri olarak modeller. Bu, kelimelerin ağırlığının metnin geri kalanına bağlı olmasına izin vererek, basit kelime torbası modeline [en] göre bir iyileştirmedir.

Bilgi arama, metin madenciliği ve kullanıcı modelleme aramalarında sıklıkla ağırlıklandırma faktörü olarak kullanılmıştır. 2015 yılında yapılan bir araştırma, dijital kütüphanelerdeki metin tabanlı öneri sistemlerinin %83'ünün tf-idf kullandığını göstermiştir.[2] tf-idf ağırlıklandırma şemasının varyasyonları , arama motorları tarafından bir kullanıcı sorgusu verildiğinde bir belgenin alakalılığını puanlama ve sıralamada merkezi bir araç olarak sıklıkla kullanılmıştır.

En basit sıralama fonksiyonlarından biri, her sorgu terimi için tf-idf'nin toplanmasıyla hesaplanır; çok daha karmaşık sıralama fonksiyonları bu basit modelin varyantlarıdır.

Motivasyonlar

[değiştir | kaynağı değiştir]

Karen Spärck Jones (1972), Ters Belge Sıklığı (idf) adı verilen terim özgüllüğünün istatistiksel bir yorumunu tasarladı ve bu, terim ağırlıklandırmasının temel taşı haline geldi:[3]

Örneğin, Shakespeare'in 37 oyunundaki bazı kelimelerin df (belge sıklığı) ve idf değerleri şu şekildedir:[4][4]

Word df idf
Romeo 1 1.57
salad 2 1.27
Falstaff 4 0.967
forest 12 0.489
battle 21 0.246
wit 34 0.037
fool 36 0.012
good 37 0
sweet 37 0

" Romeo ", " Falstaff " ve "salata" kelimelerinin çok az oyunda geçtiğini görüyoruz, dolayısıyla bu kelimelere bakarak hangi oyuna ait olabileceği konusunda fikir sahibi olabiliriz. Buna karşılık, "iyi" ve "tatlı" her oyunda karşımıza çıkar ve hangi oyun olduğuna dair hiçbir bilgi vermez.

Tanım

[değiştir | kaynağı değiştir]
  1. tf-idf iki istatistiğin, terim frekansı ve ters belge frekansının ürünüdür. Her iki istatistiğin kesin değerlerini belirlemenin çeşitli yolları vardır.
  2. Bir belge veya web sayfasındaki bir anahtar kelimenin veya ifadenin önemini tanımlamayı amaçlayan bir formül.

Terim Sıklığı

[değiştir | kaynağı değiştir]

Terim sıklığı, tf(t,d), d belgesi içindeki t teriminin göreli sıklığıdır,

t f ( t , d ) = f t , d ∑ t ′ ∈ d f t ′ , d {\displaystyle \mathrm {tf} (t,d)={\frac {f_{t,d}}{\sum _{t'\in d}{f_{t',d}}}}} {\displaystyle \mathrm {tf} (t,d)={\frac {f_{t,d}}{\sum _{t'\in d}{f_{t',d}}}}},

Burada ft,d bir belgedeki bir terimin ham sayısıdır, yani t teriminin d belgesinde geçtiği zaman sayısıdır. Paydanın, d belgesindeki toplam terim sayısı olduğunu (aynı terimin her bir geçişini ayrı ayrı sayarak) unutmayın. Terim sıklığını tanımlamanın çeşitli başka yolları da vardır:[5] :128

  • ham sayımın kendisi: tf(t,d) = ft,d
  • Boole "frekansları": t d de meydana gelirse tf(t,d) = 1 aksi takdirde 0;
  • logaritmik olarak ölçeklenmiş frekans: tf(t,d) = log (1 + ft,d) ;[6]
  • artırılmış frekans, daha uzun belgelere doğru bir önyargıyı önlemek için, örneğin ham frekansın belgedeki en sık görülen terimin ham frekansına bölünmesiyle elde edilir:
t f ( t , d ) = 0.5 + 0.5 ⋅ f t , d max { f t ′ , d : t ′ ∈ d } {\displaystyle \mathrm {tf} (t,d)=0.5+0.5\cdot {\frac {f_{t,d}}{\max\{f_{t',d}:t'\in d\}}}} {\displaystyle \mathrm {tf} (t,d)=0.5+0.5\cdot {\frac {f_{t,d}}{\max\{f_{t',d}:t'\in d\}}}}

Ters belge sıklığı

[değiştir | kaynağı değiştir]
Ters belge sıklığı (idf) ağırlığının varyantları
ağırlıklandırma şeması idf ağırlığı ( n t = | { d ∈ D : t ∈ d } | {\displaystyle n_{t}=|\{d\in D:t\in d\}|} {\displaystyle n_{t}=|\{d\in D:t\in d\}|} )
tekli 1
ters belge sıklığı log ⁡ N n t = − log ⁡ n t N {\displaystyle \log {\frac {N}{n_{t}}}=-\log {\frac {n_{t}}{N}}} {\displaystyle \log {\frac {N}{n_{t}}}=-\log {\frac {n_{t}}{N}}}
ters belge frekansı düzgün log ⁡ ( N 1 + n t ) + 1 {\displaystyle \log \left({\frac {N}{1+n_{t}}}\right)+1} {\displaystyle \log \left({\frac {N}{1+n_{t}}}\right)+1}
ters belge sıklığı maksimum log ⁡ ( max { t ′ ∈ d } n t ′ 1 + n t ) {\displaystyle \log \left({\frac {\max _{\{t'\in d\}}n_{t'}}{1+n_{t}}}\right)} {\displaystyle \log \left({\frac {\max _{\{t'\in d\}}n_{t'}}{1+n_{t}}}\right)}
olasılıksal ters belge sıklığı log ⁡ N − n t n t {\displaystyle \log {\frac {N-n_{t}}{n_{t}}}} {\displaystyle \log {\frac {N-n_{t}}{n_{t}}}}

Ters belge sıklığı, kelimenin ne kadar bilgi sağladığının, yani tüm belgelerde ne kadar yaygın veya nadir olduğunun bir ölçüsüdür. Terimi içeren belgelerin sayısının, terimi içeren belgelerin sayısına bölünmesiyle elde edilen, kelimeyi içeren belgelerin logaritmik olarak ölçeklendirilmiş ters kesridir:

i d f ( t , D ) = log ⁡ N | { d : d ∈ D  and  t ∈ d } | {\displaystyle \mathrm {idf} (t,D)=\log {\frac {N}{|\{d:d\in D{\text{ and }}t\in d\}|}}} {\displaystyle \mathrm {idf} (t,D)=\log {\frac {N}{|\{d:d\in D{\text{ and }}t\in d\}|}}}
Farklı ters belge frekans fonksiyonlarının çizimi: standart, pürüzsüz, olasılıksal.
  • N {\displaystyle N} {\displaystyle N} : korpustaki toplam belge sayısı N = | D | {\displaystyle N={|D|}} {\displaystyle N={|D|}}
  • | { d ∈ D : t ∈ d } | {\displaystyle |\{d\in D:t\in d\}|} {\displaystyle |\{d\in D:t\in d\}|} : terimin kullanıldığı belge sayısı t {\displaystyle t} {\displaystyle t} görünür (yani, t f ( t , d ) ≠ 0 {\displaystyle \mathrm {tf} (t,d)\neq 0} {\displaystyle \mathrm {tf} (t,d)\neq 0} ). Terimin korpusta olmaması durumunda sıfıra bölme işlemi gerçekleşir. Bu nedenle paydayı ayarlamak yaygındır 1 + N {\displaystyle 1+N} {\displaystyle 1+N} ve payda 1 + | { d ∈ D : t ∈ d } | {\displaystyle 1+|\{d\in D:t\in d\}|} {\displaystyle 1+|\{d\in D:t\in d\}|} .

Terim sıklığı–ters belge sıklığı

[değiştir | kaynağı değiştir]

Daha sonra tf–idf şu şekilde hesaplanır:

t f i d f ( t , d , D ) = t f ( t , d ) ⋅ i d f ( t , D ) {\displaystyle \mathrm {tfidf} (t,d,D)=\mathrm {tf} (t,d)\cdot \mathrm {idf} (t,D)} {\displaystyle \mathrm {tfidf} (t,d,D)=\mathrm {tf} (t,d)\cdot \mathrm {idf} (t,D)}

Terim frekansı-ters belge frekansı (tf–idf) ağırlıklarının varyantları
ağırlıklandırma şeması tf-idf
sayaç(count)-idf f t , d ⋅ log ⁡ N n t {\displaystyle f_{t,d}\cdot \log {\frac {N}{n_{t}}}} {\displaystyle f_{t,d}\cdot \log {\frac {N}{n_{t}}}}
çift normalizasyon-idf ( 0.5 + 0.5 f t , q max t f t , q ) ⋅ log ⁡ N n t {\displaystyle \left(0.5+0.5{\frac {f_{t,q}}{\max _{t}f_{t,q}}}\right)\cdot \log {\frac {N}{n_{t}}}} {\displaystyle \left(0.5+0.5{\frac {f_{t,q}}{\max _{t}f_{t,q}}}\right)\cdot \log {\frac {N}{n_{t}}}}
günlük normalleştirme-idf ( 1 + log ⁡ f t , d ) ⋅ log ⁡ N n t {\displaystyle (1+\log f_{t,d})\cdot \log {\frac {N}{n_{t}}}} {\displaystyle (1+\log f_{t,d})\cdot \log {\frac {N}{n_{t}}}}

tf-idf'de yüksek bir ağırlığa, (verilen belgede) yüksek bir terimsıklığı ve tüm belge koleksiyonunda terimin düşük bir belge sıklığı ile ulaşılır; bu nedenle ağırlıklar ortak terimleri filtreleme eğilimindedir. İdf'nin logaritmik fonksiyonu içindeki oran her zaman 1'den büyük veya eşit olduğundan, idf'nin (ve tf-idf'nin) değeri 0'dan büyük veya eşittir. Bir terim daha fazla belgede göründükçe logaritmanın içindeki oran 1'e yaklaşır ve idf ile tf–idf'yi 0'a yakınlaştırır.

IDF'nin gerekçesi

[değiştir | kaynağı değiştir]

Idf , Karen Spärck Jones'un 1972 tarihli bir makalesinde "terim özgüllüğü" olarak ortaya atılmıştır. Her ne kadar bir sezgisel yöntem olarak iyi çalışsa da, teorik temelleri en azından otuz yıl boyunca sorunlu oldu ve birçok araştırmacı bunun için bilgi teorik gerekçeleri bulmaya çalıştı.[7]

Spärck Jones'un kendi açıklaması, Zipf yasasıyla bağlantı dışında pek fazla teori önermiyordu.[7] Belirli bir belge d t terimini göreceli belge sıklığı olarak içermesi olasılığını tahmin ederek, idf'yi olasılıksal bir temele oturtmak için girişimlerde bulunuldu [8]

P ( t | D ) = | { d ∈ D : t ∈ d } | N , {\displaystyle P(t|D)={\frac {|\{d\in D:t\in d\}|}{N}},} {\displaystyle P(t|D)={\frac {|\{d\in D:t\in d\}|}{N}},}

böylece idf'yi şu şekilde tanımlayabiliriz

i d f = − log ⁡ P ( t | D ) = log ⁡ 1 P ( t | D ) = log ⁡ N | { d ∈ D : t ∈ d } | {\displaystyle {\begin{aligned}\mathrm {idf} &=-\log P(t|D)\\&=\log {\frac {1}{P(t|D)}}\\&=\log {\frac {N}{|\{d\in D:t\in d\}|}}\end{aligned}}} {\displaystyle {\begin{aligned}\mathrm {idf} &=-\log P(t|D)\\&=\log {\frac {1}{P(t|D)}}\\&=\log {\frac {N}{|\{d\in D:t\in d\}|}}\end{aligned}}}

Yani ters belge sıklığı, "ters" göreli belge sıklığının logaritmasıdır.

Bu olasılıksal yorumlama da öz-bilgilendirmeyle aynı biçimi alır. Ancak, bu tür bilgi-teorik kavramların bilgi alma sorunlarına uygulanması, gerekli olasılık dağılımları için uygun olay alanlarını tanımlamaya çalışırken sorunlara yol açar: yalnızca belgelerin değil, aynı zamanda sorguların ve terimlerin de dikkate alınması gerekir.[7]

Bilgi teorisiyle bağlantı

[değiştir | kaynağı değiştir]

Hem terim sıklığı hem de ters belge sıklığı, bilgi teorisi açısından formüle edilebilir; ürünlerinin, bir belgenin ortak bilgi içeriği açısından neden bir anlam taşıdığını anlamaya yardımcı olur. Dağıtım hakkında karakteristik bir varsayım p ( d , t ) {\displaystyle p(d,t)} {\displaystyle p(d,t)} bu mudur:

p ( d | t ) = 1 | { d ∈ D : t ∈ d } | {\displaystyle p(d|t)={\frac {1}{|\{d\in D:t\in d\}|}}} {\displaystyle p(d|t)={\frac {1}{|\{d\in D:t\in d\}|}}}

Aizawa'ya göre bu varsayım ve bunun sonuçları: "tf-idf'nin kullandığı sezgisel yöntemi temsil ediyor." [9]

Gövdedeki "rastgele seçilmiş" bir belgenin koşullu entropisi D {\displaystyle D} {\displaystyle D}, belirli bir terim içermesi koşuluyla t {\displaystyle t} {\displaystyle t} (ve tüm belgelerin seçilme olasılığının eşit olduğunu varsayarak) şudur:

H ( D | T = t ) = − ∑ d p d | t log ⁡ p d | t = − log ⁡ 1 | { d ∈ D : t ∈ d } | = log ⁡ | { d ∈ D : t ∈ d } | | D | + log ⁡ | D | = − i d f ( t ) + log ⁡ | D | {\displaystyle H({\cal {D}}|{\cal {T}}=t)=-\sum _{d}p_{d|t}\log p_{d|t}=-\log {\frac {1}{|\{d\in D:t\in d\}|}}=\log {\frac {|\{d\in D:t\in d\}|}{|D|}}+\log |D|=-\mathrm {idf} (t)+\log |D|} {\displaystyle H({\cal {D}}|{\cal {T}}=t)=-\sum _{d}p_{d|t}\log p_{d|t}=-\log {\frac {1}{|\{d\in D:t\in d\}|}}=\log {\frac {|\{d\in D:t\in d\}|}{|D|}}+\log |D|=-\mathrm {idf} (t)+\log |D|}

Notasyon açısından, D {\displaystyle {\cal {D}}} {\displaystyle {\cal {D}}} Ve T {\displaystyle {\cal {T}}} {\displaystyle {\cal {T}}} sırasıyla bir belgeyi veya terimi çizmeye karşılık gelen "rastgele değişkenler"dir. Karşılıklı bilgi şu şekilde ifade edilebilir:

M ( T ; D ) = H ( D ) − H ( D | T ) = ∑ t p t ⋅ ( H ( D ) − H ( D | W = t ) ) = ∑ t p t ⋅ i d f ( t ) {\displaystyle M({\cal {T}};{\cal {D}})=H({\cal {D}})-H({\cal {D}}|{\cal {T}})=\sum _{t}p_{t}\cdot (H({\cal {D}})-H({\cal {D}}|W=t))=\sum _{t}p_{t}\cdot \mathrm {idf} (t)} {\displaystyle M({\cal {T}};{\cal {D}})=H({\cal {D}})-H({\cal {D}}|{\cal {T}})=\sum _{t}p_{t}\cdot (H({\cal {D}})-H({\cal {D}}|W=t))=\sum _{t}p_{t}\cdot \mathrm {idf} (t)}

Son adım genişletmektir p t {\displaystyle p_{t}} {\displaystyle p_{t}}, bir belgenin (rastgele) seçimine göre, bir terim çizmenin koşulsuz olasılığı, şunu elde eder:

M ( T ; D ) = ∑ t , d p t | d ⋅ p d ⋅ i d f ( t ) = ∑ t , d t f ( t , d ) ⋅ 1 | D | ⋅ i d f ( t ) = 1 | D | ∑ t , d t f ( t , d ) ⋅ i d f ( t ) . {\displaystyle M({\cal {T}};{\cal {D}})=\sum _{t,d}p_{t|d}\cdot p_{d}\cdot \mathrm {idf} (t)=\sum _{t,d}\mathrm {tf} (t,d)\cdot {\frac {1}{|D|}}\cdot \mathrm {idf} (t)={\frac {1}{|D|}}\sum _{t,d}\mathrm {tf} (t,d)\cdot \mathrm {idf} (t).} {\displaystyle M({\cal {T}};{\cal {D}})=\sum _{t,d}p_{t|d}\cdot p_{d}\cdot \mathrm {idf} (t)=\sum _{t,d}\mathrm {tf} (t,d)\cdot {\frac {1}{|D|}}\cdot \mathrm {idf} (t)={\frac {1}{|D|}}\sum _{t,d}\mathrm {tf} (t,d)\cdot \mathrm {idf} (t).}

Bu ifade, tüm olası terimlerin ve belgelerin Tf–idf'sinin toplanmasının, ortak dağıtımlarının tüm özelliklerini hesaba katarak belgeler ve terimler arasındaki karşılıklı bilgiyi kurtardığını göstermektedir.[10] Dolayısıyla her Tf-idf terim x belge çiftine bağlı "bilgi bitini" taşır.

tf-idf Örneği

[değiştir | kaynağı değiştir]

Sağda listelendiği gibi, yalnızca iki belgeden oluşan bir metin gövdesinin terim sayım tablolarına sahip olduğumuzu varsayalım.

Document 2
Term Term Count
Turkiye 1
Anadolu 1
Ay 2
Su 3
Document 1
Term Term Count
Turkiye 1
Anadolu 1
Ataturk 2
Yildiz 1

"Turkiye" terimi için tf-idf hesaplaması aşağıdaki şekilde yapılır:

Ham frekans formunda tf, her belge için "Turkiye" ifadesinin frekansıdır. Her belgede "Turkiye" kelimesi bir kez geçiyor; ancak 2. belgede daha fazla kelime olduğu için, göreceli sıklığı daha az.

t f ( ″ T u r k i y e ″ , d 1 ) = 1 5 = 0.2 {\displaystyle \mathrm {tf} ({\mathsf {''Turkiye''}},d_{1})={\frac {1}{5}}=0.2} {\displaystyle \mathrm {tf} ({\mathsf {''Turkiye''}},d_{1})={\frac {1}{5}}=0.2}
t f ( ″ T u r k i y e ″ , d 2 ) = 1 7 ≈ 0.14 {\displaystyle \mathrm {tf} ({\mathsf {''Turkiye''}},d_{2})={\frac {1}{7}}\approx 0.14} {\displaystyle \mathrm {tf} ({\mathsf {''Turkiye''}},d_{2})={\frac {1}{7}}\approx 0.14}

İdf, her metinde sabittir ve "Turkiye" kelimesini içeren belgelerin oranını belirler . Bu durumda, iki belgeden oluşan bir metin bütününe sahibiz ve hepsinde "Turkiye" kelimesi geçiyor.

i d f ( ″ T u r k i y e ″ , D ) = log ⁡ ( 2 2 ) = 0 {\displaystyle \mathrm {idf} ({\mathsf {''Turkiye''}},D)=\log \left({\frac {2}{2}}\right)=0} {\displaystyle \mathrm {idf} ({\mathsf {''Turkiye''}},D)=\log \left({\frac {2}{2}}\right)=0}

Yani "Turkiye" kelimesi için tf–idf sıfırdır, bu da kelimenin tüm belgelerde göründüğü gibi pek de bilgilendirici olmadığı anlamına gelir.

t f i d f ( ″ T u r k i y e ″ , d 1 , D ) = 0.2 × 0 = 0 {\displaystyle \mathrm {tfidf} ({\mathsf {''Turkiye''}},d_{1},D)=0.2\times 0=0} {\displaystyle \mathrm {tfidf} ({\mathsf {''Turkiye''}},d_{1},D)=0.2\times 0=0}
t f i d f ( ″ T u r k i y e ″ , d 2 , D ) = 0.14 × 0 = 0 {\displaystyle \mathrm {tfidf} ({\mathsf {''Turkiye''}},d_{2},D)=0.14\times 0=0} {\displaystyle \mathrm {tfidf} ({\mathsf {''Turkiye''}},d_{2},D)=0.14\times 0=0}

"Su" kelimesi daha ilginçtir - üç kez geçer, ama sadece ikinci belgede:

t f ( ″ s u ″ , d 1 ) = 0 5 = 0 {\displaystyle \mathrm {tf} ({\mathsf {''su''}},d_{1})={\frac {0}{5}}=0} {\displaystyle \mathrm {tf} ({\mathsf {''su''}},d_{1})={\frac {0}{5}}=0}
t f ( ″ s u ″ , d 2 ) = 3 7 ≈ 0.429 {\displaystyle \mathrm {tf} ({\mathsf {''su''}},d_{2})={\frac {3}{7}}\approx 0.429} {\displaystyle \mathrm {tf} ({\mathsf {''su''}},d_{2})={\frac {3}{7}}\approx 0.429}
i d f ( ″ s u ″ , D ) = log ⁡ ( 2 1 ) = 0.301 {\displaystyle \mathrm {idf} ({\mathsf {''su''}},D)=\log \left({\frac {2}{1}}\right)=0.301} {\displaystyle \mathrm {idf} ({\mathsf {''su''}},D)=\log \left({\frac {2}{1}}\right)=0.301}

Sonunda,

t f i d f ( ″ s u ″ , d 1 , D ) = t f ( ″ s u ″ , d 1 ) × i d f ( ″ s u ″ , D ) = 0 × 0.301 = 0 {\displaystyle \mathrm {tfidf} ({\mathsf {''su''}},d_{1},D)=\mathrm {tf} ({\mathsf {''su''}},d_{1})\times \mathrm {idf} ({\mathsf {''su''}},D)=0\times 0.301=0} {\displaystyle \mathrm {tfidf} ({\mathsf {''su''}},d_{1},D)=\mathrm {tf} ({\mathsf {''su''}},d_{1})\times \mathrm {idf} ({\mathsf {''su''}},D)=0\times 0.301=0}
t f i d f ( ″ s u ″ , d 2 , D ) = t f ( ″ s u ″ , d 2 ) × i d f ( ″ s u ″ , D ) = 0.429 × 0.301 ≈ 0.129 {\displaystyle \mathrm {tfidf} ({\mathsf {''su''}},d_{2},D)=\mathrm {tf} ({\mathsf {''su''}},d_{2})\times \mathrm {idf} ({\mathsf {''su''}},D)=0.429\times 0.301\approx 0.129} {\displaystyle \mathrm {tfidf} ({\mathsf {''su''}},d_{2},D)=\mathrm {tf} ({\mathsf {''su''}},d_{2})\times \mathrm {idf} ({\mathsf {''su''}},D)=0.429\times 0.301\approx 0.129}

(10 tabanlı logaritmayı kullanarak).

Terimlerin ötesinde

[değiştir | kaynağı değiştir]

Tf-idf'nin ardındaki fikir, terimler dışındaki varlıklar için de geçerlidir. 1998 yılında, İDF kavramı atıflara uygulandı.[11] Yazarlar, "çok nadir bir atıf iki belge tarafından paylaşılıyorsa, bu atıfın çok sayıda belge tarafından yapılan atıflardan daha fazla ağırlıklandırılması gerektiğini" savundular. Ek olarak, tf–idf, videolarda [12] ve tüm cümlelerde [13] nesne eşleştirmesi yapma amacıyla "görsel kelimelere" uygulandı. Ancak, tf-idf kavramının tüm durumlarda düz bir tf şemasından (idf olmadan) daha etkili olduğu kanıtlanmamıştır. Tf-idf atıflara uygulandığında, araştırmacılar idf bileşeni olmayan basit bir atıf sayısı ağırlığına göre herhangi bir iyileştirme bulamadılar.[14]

Türevler

[değiştir | kaynağı değiştir]

Bir dizi terim ağırlıklandırma şeması tf-idf'den türetilmiştir. Bunlardan biri TF–PDF'dir (terim sıklığı * orantılı belge sıklığı).[15] TF-PDF, medyada ortaya çıkan yeni konuların belirlenmesi amacıyla 2001 yılında ortaya çıkmıştır. PDF bileşeni, bir terimin farklı alanlarda ne sıklıkta geçtiğini ölçer. Başka bir türev ise TF–IDuF'tur. TF–IDuF'de [16] idf, aranacak veya önerilecek belge gövdesine göre hesaplanmaz. Bunun yerine idf kullanıcıların kişisel belge koleksiyonları üzerinden hesaplanır. Yazarlar, TF-IDuF'un tf-idf kadar etkili olduğunu ancak örneğin bir kullanıcı modelleme sisteminin küresel belge gövdesine erişimi olmadığı durumlarda da uygulanabileceğini bildirmektedir.

Ayrıca bakınız

[değiştir | kaynağı değiştir]
  • Latent Dirichlet allocation
  • PageRank

Kaynakça

[değiştir | kaynağı değiştir]
  1. ^ Rajaraman, A.; Ullman, J.D. (2011). "Data Mining" (PDF). Mining of Massive Datasets. ss. 1-17. doi:10.1017/CBO9781139058452.002. ISBN 978-1-139-05845-2. 
  2. ^ Breitinger, Corinna; Gipp, Bela; Langer, Stefan (26 Temmuz 2015). "Research-paper recommender systems: a literature survey". International Journal on Digital Libraries (İngilizce). 17 (4): 305-338. doi:10.1007/s00799-015-0156-0. ISSN 1432-5012. 10 Ocak 2025 tarihinde kaynağından arşivlendi26 Nisan 2025. 
  3. ^ Spärck Jones, K. (1972). "A Statistical Interpretation of Term Specificity and Its Application in Retrieval". Journal of Documentation. 28 (1): 11-21. doi:10.1108/eb026526. 
  4. ^ a b Speech and Language Processing (3rd ed. draft), Dan Jurafsky and James H. Martin, chapter 14.https://web.stanford.edu/~jurafsky/slp3/14.pdf
  5. ^ Manning, C.D.; Raghavan, P.; Schutze, H. (2008). "Scoring, term weighting, and the vector space model" (PDF). Introduction to Information Retrieval. s. 100. doi:10.1017/CBO9780511809071.007. ISBN 978-0-511-80907-1. 
  6. ^ "TFIDF statistics | SAX-VSM". 7 Kasım 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 26 Nisan 2025. 
  7. ^ a b c Robertson, S. (2004). "Understanding inverse document frequency: On theoretical arguments for IDF". Journal of Documentation. 60 (5): 503-520. doi:10.1108/00220410410560582. 
  8. ^ See also Probability estimates in practice 14 Şubat 2017 tarihinde Wayback Machine sitesinde arşivlendi. in Introduction to Information Retrieval.
  9. ^ Aizawa, Akiko (2003). "An information-theoretic perspective of tf–idf measures". Information Processing and Management (İngilizce). 39 (1): 45-65. doi:10.1016/S0306-4573(02)00021-3. 
  10. ^ Aizawa, Akiko (2003). "An information-theoretic perspective of tf–idf measures". Information Processing and Management (İngilizce). 39 (1): 45-65. doi:10.1016/S0306-4573(02)00021-3. 
  11. ^ Bollacker, Kurt D.; Lawrence, Steve; Giles, C. Lee (1 Ocak 1998). "CiteSeer". Proceedings of the second international conference on Autonomous agents - AGENTS '98. ss. 116-123. doi:10.1145/280765.280786. ISBN 978-0-89791-983-8. 
  12. ^ Sivic, Josef; Zisserman, Andrew (1 Ocak 2003). "Video Google: A text retrieval approach to object matching in videos". Proceedings Ninth IEEE International Conference on Computer Vision. ICCV '03. ss. 1470-. doi:10.1109/ICCV.2003.1238663. ISBN 978-0-7695-1950-0. 3 Şubat 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 26 Nisan 2025. 
  13. ^ Seki, Yohei. "Sentence Extraction by tf/idf and Position Weighting from Newspaper Articles" (PDF). National Institute of Informatics. 29 Haziran 2022 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 26 Nisan 2025. 
  14. ^ Beel, Joeran; Breitinger, Corinna (2017). "Evaluating the CC-IDF citation-weighting scheme – How effectively can 'Inverse Document Frequency' (IDF) be applied to references?" (PDF). Proceedings of the 12th IConference. 22 Eylül 2020 tarihinde kaynağından (PDF) arşivlendi29 Ocak 2017. 
  15. ^ Khoo Khyou Bun; Bun, Khoo Khyou; Ishizuka, M. (2001). "Emerging Topic Tracking System". Proceedings Third International Workshop on Advanced Issues of E-Commerce and Web-Based Information Systems. WECWIS 2001 (İngilizce). ss. 2-11. doi:10.1109/wecwis.2001.933900. ISBN 978-0-7695-1224-2. 
  16. ^ Langer, Stefan; Gipp, Bela (2017). "TF-IDuF: A Novel Term-Weighting Scheme for User Modeling based on Users' Personal Document Collections" (PDF). IConference. 23 Kasım 2021 tarihinde kaynağından arşivlendi (PDF)26 Nisan 2025. 

Dış bağlantılar ve önerilen okumalar

[değiştir | kaynağı değiştir]
  • Gensim, vektör uzayı modellemesi için bir Python kütüphanesidir ve tf-idf ağırlıklandırmasını içerir.
  • Bir arama motorunun anatomisi
  • tf–idf ve Lucene'de kullanılan ilgili tanımlar
  • Scikit-learn'de TfidfTransformer
  • Metin Madenciliğinde (TM) çeşitli görevler için kullanılabilen Metinden Matris Oluşturucu (TMG) MATLAB araç kutusu; özellikle i) indeksleme, ii) alma, iii) boyut azaltma, iv) kümeleme, v) sınıflandırma. İndeksleme adımı kullanıcıya tf–idf dahil olmak üzere yerel ve küresel ağırlıklandırma yöntemlerini uygulama olanağı sunar.
  • Terim sıklığı açıklandı Terim sıklığının açıklaması
"https://tr.wikipedia.org/w/index.php?title=Tf-idf&oldid=36323457" sayfasından alınmıştır
Kategori:
  • İstatistiksel doğal dil işleme
Gizli kategori:
  • Webarşiv şablonu wayback bağlantıları
  • Sayfa en son 16.02, 1 Kasım 2025 tarihinde değiştirildi.
  • Metin Creative Commons Atıf-AynıLisanslaPaylaş Lisansı altındadır ve ek koşullar uygulanabilir. Bu siteyi kullanarak Kullanım Şartlarını ve Gizlilik Politikasını kabul etmiş olursunuz.
    Vikipedi® (ve Wikipedia®) kâr amacı gütmeyen kuruluş olan Wikimedia Foundation, Inc. tescilli markasıdır.
  • Gizlilik politikası
  • Vikipedi hakkında
  • Sorumluluk reddi
  • Davranış Kuralları
  • Geliştiriciler
  • İstatistikler
  • Çerez politikası
  • Mobil görünüm
  • Wikimedia Foundation
  • Powered by MediaWiki
Tf-idf
Konu ekle