Tf-idf
Bilgi almada (information retrieval), tf-idf (ayrıca TF*IDF, TFIDF, TF-IDF veya Tf-idf ), terim sıklığı-ters belge sıklığı ifadesinin kısaltmasıdır ve bir koleksiyon veya gövdedeki bir belge için bir kelimenin öneminin ölçüsüdür; bazı kelimelerin genel olarak daha sık göründüğü gerçeği göz önünde bulundurularak ayarlanmıştır.[1] Kelime torbası modeli gibi, bir belgeyi kelime sırası olmaksızın, çoklu kelime kümeleri olarak modeller. Bu, kelimelerin ağırlığının metnin geri kalanına bağlı olmasına izin vererek, basit kelime torbası modeline göre bir iyileştirmedir.
Bilgi arama, metin madenciliği ve kullanıcı modelleme aramalarında sıklıkla ağırlıklandırma faktörü olarak kullanılmıştır. 2015 yılında yapılan bir araştırma, dijital kütüphanelerdeki metin tabanlı öneri sistemlerinin %83'ünün tf-idf kullandığını göstermiştir.[2] tf-idf ağırlıklandırma şemasının varyasyonları , arama motorları tarafından bir kullanıcı sorgusu verildiğinde bir belgenin alakalılığını puanlama ve sıralamada merkezi bir araç olarak sıklıkla kullanılmıştır.
En basit sıralama fonksiyonlarından biri, her sorgu terimi için tf-idf'nin toplanmasıyla hesaplanır; çok daha karmaşık sıralama fonksiyonları bu basit modelin varyantlarıdır.
Motivasyonlar
[değiştir | kaynağı değiştir]Karen Spärck Jones (1972), Ters Belge Sıklığı (idf) adı verilen terim özgüllüğünün istatistiksel bir yorumunu tasarladı ve bu, terim ağırlıklandırmasının temel taşı haline geldi:[3]
Örneğin, Shakespeare'in 37 oyunundaki bazı kelimelerin df (belge sıklığı) ve idf değerleri şu şekildedir:[4][4]
| Word | df | idf |
|---|---|---|
| Romeo | 1 | 1.57 |
| salad | 2 | 1.27 |
| Falstaff | 4 | 0.967 |
| forest | 12 | 0.489 |
| battle | 21 | 0.246 |
| wit | 34 | 0.037 |
| fool | 36 | 0.012 |
| good | 37 | 0 |
| sweet | 37 | 0 |
" Romeo ", " Falstaff " ve "salata" kelimelerinin çok az oyunda geçtiğini görüyoruz, dolayısıyla bu kelimelere bakarak hangi oyuna ait olabileceği konusunda fikir sahibi olabiliriz. Buna karşılık, "iyi" ve "tatlı" her oyunda karşımıza çıkar ve hangi oyun olduğuna dair hiçbir bilgi vermez.
Tanım
[değiştir | kaynağı değiştir]- tf-idf iki istatistiğin, terim frekansı ve ters belge frekansının ürünüdür. Her iki istatistiğin kesin değerlerini belirlemenin çeşitli yolları vardır.
- Bir belge veya web sayfasındaki bir anahtar kelimenin veya ifadenin önemini tanımlamayı amaçlayan bir formül.
Terim Sıklığı
[değiştir | kaynağı değiştir]Terim sıklığı, tf(t,d), d belgesi içindeki t teriminin göreli sıklığıdır,
- ,
Burada ft,d bir belgedeki bir terimin ham sayısıdır, yani t teriminin d belgesinde geçtiği zaman sayısıdır. Paydanın, d belgesindeki toplam terim sayısı olduğunu (aynı terimin her bir geçişini ayrı ayrı sayarak) unutmayın. Terim sıklığını tanımlamanın çeşitli başka yolları da vardır:[5] :128
- ham sayımın kendisi: tf(t,d) = ft,d
- Boole "frekansları": t d de meydana gelirse tf(t,d) = 1 aksi takdirde 0;
- logaritmik olarak ölçeklenmiş frekans: tf(t,d) = log (1 + ft,d) ;[6]
- artırılmış frekans, daha uzun belgelere doğru bir önyargıyı önlemek için, örneğin ham frekansın belgedeki en sık görülen terimin ham frekansına bölünmesiyle elde edilir:
Ters belge sıklığı
[değiştir | kaynağı değiştir]| ağırlıklandırma şeması | idf ağırlığı ( ) |
|---|---|
| tekli | 1 |
| ters belge sıklığı | |
| ters belge frekansı düzgün | |
| ters belge sıklığı maksimum | |
| olasılıksal ters belge sıklığı |
Ters belge sıklığı, kelimenin ne kadar bilgi sağladığının, yani tüm belgelerde ne kadar yaygın veya nadir olduğunun bir ölçüsüdür. Terimi içeren belgelerin sayısının, terimi içeren belgelerin sayısına bölünmesiyle elde edilen, kelimeyi içeren belgelerin logaritmik olarak ölçeklendirilmiş ters kesridir:
- : korpustaki toplam belge sayısı
- : terimin kullanıldığı belge sayısı görünür (yani, ). Terimin korpusta olmaması durumunda sıfıra bölme işlemi gerçekleşir. Bu nedenle paydayı ayarlamak yaygındır ve payda .
Terim sıklığı–ters belge sıklığı
[değiştir | kaynağı değiştir]Daha sonra tf–idf şu şekilde hesaplanır:
| ağırlıklandırma şeması | tf-idf |
|---|---|
| sayaç(count)-idf | |
| çift normalizasyon-idf | |
| günlük normalleştirme-idf |
tf-idf'de yüksek bir ağırlığa, (verilen belgede) yüksek bir terimsıklığı ve tüm belge koleksiyonunda terimin düşük bir belge sıklığı ile ulaşılır; bu nedenle ağırlıklar ortak terimleri filtreleme eğilimindedir. İdf'nin logaritmik fonksiyonu içindeki oran her zaman 1'den büyük veya eşit olduğundan, idf'nin (ve tf-idf'nin) değeri 0'dan büyük veya eşittir. Bir terim daha fazla belgede göründükçe logaritmanın içindeki oran 1'e yaklaşır ve idf ile tf–idf'yi 0'a yakınlaştırır.
IDF'nin gerekçesi
[değiştir | kaynağı değiştir]Idf , Karen Spärck Jones'un 1972 tarihli bir makalesinde "terim özgüllüğü" olarak ortaya atılmıştır. Her ne kadar bir sezgisel yöntem olarak iyi çalışsa da, teorik temelleri en azından otuz yıl boyunca sorunlu oldu ve birçok araştırmacı bunun için bilgi teorik gerekçeleri bulmaya çalıştı.[7]
Spärck Jones'un kendi açıklaması, Zipf yasasıyla bağlantı dışında pek fazla teori önermiyordu.[7] Belirli bir belge d t terimini göreceli belge sıklığı olarak içermesi olasılığını tahmin ederek, idf'yi olasılıksal bir temele oturtmak için girişimlerde bulunuldu [8]
böylece idf'yi şu şekilde tanımlayabiliriz
Yani ters belge sıklığı, "ters" göreli belge sıklığının logaritmasıdır.
Bu olasılıksal yorumlama da öz-bilgilendirmeyle aynı biçimi alır. Ancak, bu tür bilgi-teorik kavramların bilgi alma sorunlarına uygulanması, gerekli olasılık dağılımları için uygun olay alanlarını tanımlamaya çalışırken sorunlara yol açar: yalnızca belgelerin değil, aynı zamanda sorguların ve terimlerin de dikkate alınması gerekir.[7]
Bilgi teorisiyle bağlantı
[değiştir | kaynağı değiştir]Hem terim sıklığı hem de ters belge sıklığı, bilgi teorisi açısından formüle edilebilir; ürünlerinin, bir belgenin ortak bilgi içeriği açısından neden bir anlam taşıdığını anlamaya yardımcı olur. Dağıtım hakkında karakteristik bir varsayım bu mudur:
Aizawa'ya göre bu varsayım ve bunun sonuçları: "tf-idf'nin kullandığı sezgisel yöntemi temsil ediyor." [9]
Gövdedeki "rastgele seçilmiş" bir belgenin koşullu entropisi , belirli bir terim içermesi koşuluyla (ve tüm belgelerin seçilme olasılığının eşit olduğunu varsayarak) şudur:
Notasyon açısından, Ve sırasıyla bir belgeyi veya terimi çizmeye karşılık gelen "rastgele değişkenler"dir. Karşılıklı bilgi şu şekilde ifade edilebilir:
Son adım genişletmektir , bir belgenin (rastgele) seçimine göre, bir terim çizmenin koşulsuz olasılığı, şunu elde eder:
Bu ifade, tüm olası terimlerin ve belgelerin Tf–idf'sinin toplanmasının, ortak dağıtımlarının tüm özelliklerini hesaba katarak belgeler ve terimler arasındaki karşılıklı bilgiyi kurtardığını göstermektedir.[10] Dolayısıyla her Tf-idf terim x belge çiftine bağlı "bilgi bitini" taşır.
tf-idf Örneği
[değiştir | kaynağı değiştir]Sağda listelendiği gibi, yalnızca iki belgeden oluşan bir metin gövdesinin terim sayım tablolarına sahip olduğumuzu varsayalım.
| Term | Term Count |
|---|---|
| Turkiye | 1 |
| Anadolu | 1 |
| Ay | 2 |
| Su | 3 |
| Term | Term Count |
|---|---|
| Turkiye | 1 |
| Anadolu | 1 |
| Ataturk | 2 |
| Yildiz | 1 |
"Turkiye" terimi için tf-idf hesaplaması aşağıdaki şekilde yapılır:
Ham frekans formunda tf, her belge için "Turkiye" ifadesinin frekansıdır. Her belgede "Turkiye" kelimesi bir kez geçiyor; ancak 2. belgede daha fazla kelime olduğu için, göreceli sıklığı daha az.
İdf, her metinde sabittir ve "Turkiye" kelimesini içeren belgelerin oranını belirler . Bu durumda, iki belgeden oluşan bir metin bütününe sahibiz ve hepsinde "Turkiye" kelimesi geçiyor.
Yani "Turkiye" kelimesi için tf–idf sıfırdır, bu da kelimenin tüm belgelerde göründüğü gibi pek de bilgilendirici olmadığı anlamına gelir.
"Su" kelimesi daha ilginçtir - üç kez geçer, ama sadece ikinci belgede:
Sonunda,
(10 tabanlı logaritmayı kullanarak).
Terimlerin ötesinde
[değiştir | kaynağı değiştir]Tf-idf'nin ardındaki fikir, terimler dışındaki varlıklar için de geçerlidir. 1998 yılında, İDF kavramı atıflara uygulandı.[11] Yazarlar, "çok nadir bir atıf iki belge tarafından paylaşılıyorsa, bu atıfın çok sayıda belge tarafından yapılan atıflardan daha fazla ağırlıklandırılması gerektiğini" savundular. Ek olarak, tf–idf, videolarda [12] ve tüm cümlelerde [13] nesne eşleştirmesi yapma amacıyla "görsel kelimelere" uygulandı. Ancak, tf-idf kavramının tüm durumlarda düz bir tf şemasından (idf olmadan) daha etkili olduğu kanıtlanmamıştır. Tf-idf atıflara uygulandığında, araştırmacılar idf bileşeni olmayan basit bir atıf sayısı ağırlığına göre herhangi bir iyileştirme bulamadılar.[14]
Türevler
[değiştir | kaynağı değiştir]Bir dizi terim ağırlıklandırma şeması tf-idf'den türetilmiştir. Bunlardan biri TF–PDF'dir (terim sıklığı * orantılı belge sıklığı).[15] TF-PDF, medyada ortaya çıkan yeni konuların belirlenmesi amacıyla 2001 yılında ortaya çıkmıştır. PDF bileşeni, bir terimin farklı alanlarda ne sıklıkta geçtiğini ölçer. Başka bir türev ise TF–IDuF'tur. TF–IDuF'de [16] idf, aranacak veya önerilecek belge gövdesine göre hesaplanmaz. Bunun yerine idf kullanıcıların kişisel belge koleksiyonları üzerinden hesaplanır. Yazarlar, TF-IDuF'un tf-idf kadar etkili olduğunu ancak örneğin bir kullanıcı modelleme sisteminin küresel belge gövdesine erişimi olmadığı durumlarda da uygulanabileceğini bildirmektedir.
Ayrıca bakınız
[değiştir | kaynağı değiştir]Kaynakça
[değiştir | kaynağı değiştir]- ^ Rajaraman, A.; Ullman, J.D. (2011). "Data Mining" (PDF). Mining of Massive Datasets. ss. 1-17. doi:10.1017/CBO9781139058452.002. ISBN 978-1-139-05845-2.
- ^ Breitinger, Corinna; Gipp, Bela; Langer, Stefan (26 Temmuz 2015). "Research-paper recommender systems: a literature survey". International Journal on Digital Libraries (İngilizce). 17 (4): 305-338. doi:10.1007/s00799-015-0156-0. ISSN 1432-5012. 10 Ocak 2025 tarihinde kaynağından arşivlendi26 Nisan 2025.
- ^ Spärck Jones, K. (1972). "A Statistical Interpretation of Term Specificity and Its Application in Retrieval". Journal of Documentation. 28 (1): 11-21. doi:10.1108/eb026526.
- ^ a b Speech and Language Processing (3rd ed. draft), Dan Jurafsky and James H. Martin, chapter 14.https://web.stanford.edu/~jurafsky/slp3/14.pdf
- ^ Manning, C.D.; Raghavan, P.; Schutze, H. (2008). "Scoring, term weighting, and the vector space model" (PDF). Introduction to Information Retrieval. s. 100. doi:10.1017/CBO9780511809071.007. ISBN 978-0-511-80907-1.
- ^ "TFIDF statistics | SAX-VSM". 7 Kasım 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 26 Nisan 2025.
- ^ a b c Robertson, S. (2004). "Understanding inverse document frequency: On theoretical arguments for IDF". Journal of Documentation. 60 (5): 503-520. doi:10.1108/00220410410560582.
- ^ See also Probability estimates in practice 14 Şubat 2017 tarihinde Wayback Machine sitesinde arşivlendi. in Introduction to Information Retrieval.
- ^ Aizawa, Akiko (2003). "An information-theoretic perspective of tf–idf measures". Information Processing and Management (İngilizce). 39 (1): 45-65. doi:10.1016/S0306-4573(02)00021-3.
- ^ Aizawa, Akiko (2003). "An information-theoretic perspective of tf–idf measures". Information Processing and Management (İngilizce). 39 (1): 45-65. doi:10.1016/S0306-4573(02)00021-3.
- ^ Bollacker, Kurt D.; Lawrence, Steve; Giles, C. Lee (1 Ocak 1998). "CiteSeer". Proceedings of the second international conference on Autonomous agents - AGENTS '98. ss. 116-123. doi:10.1145/280765.280786. ISBN 978-0-89791-983-8.
- ^ Sivic, Josef; Zisserman, Andrew (1 Ocak 2003). "Video Google: A text retrieval approach to object matching in videos". Proceedings Ninth IEEE International Conference on Computer Vision. ICCV '03. ss. 1470-. doi:10.1109/ICCV.2003.1238663. ISBN 978-0-7695-1950-0. 3 Şubat 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 26 Nisan 2025.
- ^ Seki, Yohei. "Sentence Extraction by tf/idf and Position Weighting from Newspaper Articles" (PDF). National Institute of Informatics. 29 Haziran 2022 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 26 Nisan 2025.
- ^ Beel, Joeran; Breitinger, Corinna (2017). "Evaluating the CC-IDF citation-weighting scheme – How effectively can 'Inverse Document Frequency' (IDF) be applied to references?" (PDF). Proceedings of the 12th IConference. 22 Eylül 2020 tarihinde kaynağından (PDF) arşivlendi29 Ocak 2017.
- ^ Khoo Khyou Bun; Bun, Khoo Khyou; Ishizuka, M. (2001). "Emerging Topic Tracking System". Proceedings Third International Workshop on Advanced Issues of E-Commerce and Web-Based Information Systems. WECWIS 2001 (İngilizce). ss. 2-11. doi:10.1109/wecwis.2001.933900. ISBN 978-0-7695-1224-2.
- ^ Langer, Stefan; Gipp, Bela (2017). "TF-IDuF: A Novel Term-Weighting Scheme for User Modeling based on Users' Personal Document Collections" (PDF). IConference. 23 Kasım 2021 tarihinde kaynağından arşivlendi (PDF)26 Nisan 2025.
Dış bağlantılar ve önerilen okumalar
[değiştir | kaynağı değiştir]- Gensim, vektör uzayı modellemesi için bir Python kütüphanesidir ve tf-idf ağırlıklandırmasını içerir.
- Bir arama motorunun anatomisi
- tf–idf ve Lucene'de kullanılan ilgili tanımlar
- Scikit-learn'de TfidfTransformer
- Metin Madenciliğinde (TM) çeşitli görevler için kullanılabilen Metinden Matris Oluşturucu (TMG) MATLAB araç kutusu; özellikle i) indeksleme, ii) alma, iii) boyut azaltma, iv) kümeleme, v) sınıflandırma. İndeksleme adımı kullanıcıya tf–idf dahil olmak üzere yerel ve küresel ağırlıklandırma yöntemlerini uygulama olanağı sunar.
- Terim sıklığı açıklandı Terim sıklığının açıklaması
