Yöntem seçimi
Hangi tamga yönteminin sorunuza uyacağından emin değil misiniz? Bu sayfa en yaygın
durumlar için "X'i yapmak istiyorum — hangisini kullanmalıyım?" sorusunu yanıtlar.
Yöntem adları tam ayrıntı için Yöntemler ve
Adli araç seti sayfalarındaki birincil girdilere bağlanır.
Yazar tespiti, karşılaştırma, keşif
| Amaç |
Gerekli veri |
Yöntem |
Öne çıkan ölçüt |
Öğretici |
| 1 sorgulanan belgeyi N aday yazar arasından tespit etmek |
Her aday için ~2k+ sözcük bilinen metin; 1 sorgulanan belge |
CosineDelta (sağlam varsayılan) veya BurrowsDelta (klasik) |
en yakın yazar sıralaması |
Federalist |
| Bilinmeyen bir derlemi biçemsel benzerlikle kümelemek |
20+ belge, etiketler isteğe bağlı |
PCAReducer + KMeansCluster veya HDBSCANCluster |
silhouette, görsel inceleme |
— |
| Önceden tanımlı iki yazar grubunu karşılaştırmak |
Her grup için 10+ belge |
ZetaClassic veya ZetaEder |
sözcük başına ayırt edicilik skoru |
— |
| Belgeleri makine öğrenmesiyle sınıflandırmak |
Her sınıf için 20+ belge |
build_classifier + cross_validate_tamga |
CV doğruluğu / F1 |
— |
| Görselleştirme için öznitelikleri boyut indirgemek |
herhangi bir FeatureMatrix |
PCAReducer / UMAPReducer / TSNEReducer / MDSReducer |
görsel inceleme |
— |
| Bayes yaklaşımıyla tek-aday yazar tespiti |
N aday × ≥1k sözcük; 1 sorgulanan belge |
BayesianAuthorshipAttributor |
aday başına sonsal olasılık |
— |
| MFW bantları üzerinde bootstrap konsensüs ağacı |
10+ belge, birden fazla MFW bandı |
BootstrapConsensus |
klad desteği ile Newick ağacı |
— |
Adli — tek-olgu doğrulama
| Amaç |
Gerekli veri |
Yöntem |
Öne çıkan ölçüt |
Öğretici |
| 1 sorgulanan belge ile 1 aday arasında "aynı yazar mı?" sorusunu doğrulamak |
1 adayın bilinen yazıları + bir sahte-aday havuzu (~100 belge) |
GeneralImpostors |
kalibre edilmiş log-LR + C_llr |
PAN-CLEF |
| Konudan bağımsız aynı-yazar doğrulaması |
uzun düzyazı Q + K + sahte-aday havuzu |
Unmasking |
doğruluk düşüş eğrisi |
PAN-CLEF |
| Doğrulamada konu yanlılığını azaltmak |
herhangi bir derlem |
CategorizedCharNgramExtractor, categories=("prefix","suffix","punct"); veya distort_corpus(mode="dv_ma") |
yukarı akışlı doğrulayıcıyla aynı |
PAN-CLEF |
| Ham doğrulayıcı skorlarını kanıtsal olabilirlik oranına dönüştürmek |
etiketli geliştirme denemelerinde doğrulayıcı çıktıları |
CalibratedScorer + compute_pan_report |
log-LR, C_llr, ECE |
PAN-CLEF |
| Mahkemeye uygun LR çerçeveli rapor üretmek |
delil zinciri alanlarıyla birlikte Result |
build_forensic_report |
ENFSI sözel ölçeği |
— |
Bu sayfa nasıl okunur
- "Gerekli veri" bir asgaridir — daha fazlası her zaman daha iyidir.
- "Öne çıkan ölçüt" yazımda alıntılamanız gereken çıktıdır, yöntemin ürettiği tek
çıktı değildir.
- Aynı görev için iki yöntem listelendiğinde ilki önerilen varsayılandır; ikincisi
değerlendirmeye değer yayımlanmış bir alternatiftir.
Sonraki
- Yöntemler — yöntem başına gloss + ayrıntı içeren tam katalog.
- Öznitelikler — öznitelik çıkarıcı başına gloss + ayrıntı içeren katalog.
- Adli araç seti — kalibrasyon, değerlendirme, raporlama.