Ana içeriğe geç

Yöntem seçimi

Hangi tamga yönteminin sorunuza uyacağından emin değil misiniz? Bu sayfa en yaygın durumlar için "X'i yapmak istiyorum — hangisini kullanmalıyım?" sorusunu yanıtlar. Yöntem adları tam ayrıntı için Yöntemler ve Adli araç seti sayfalarındaki birincil girdilere bağlanır.

Yazar tespiti, karşılaştırma, keşif

Amaç Gerekli veri Yöntem Öne çıkan ölçüt Öğretici
1 sorgulanan belgeyi N aday yazar arasından tespit etmek Her aday için ~2k+ sözcük bilinen metin; 1 sorgulanan belge CosineDelta (sağlam varsayılan) veya BurrowsDelta (klasik) en yakın yazar sıralaması Federalist
Bilinmeyen bir derlemi biçemsel benzerlikle kümelemek 20+ belge, etiketler isteğe bağlı PCAReducer + KMeansCluster veya HDBSCANCluster silhouette, görsel inceleme
Önceden tanımlı iki yazar grubunu karşılaştırmak Her grup için 10+ belge ZetaClassic veya ZetaEder sözcük başına ayırt edicilik skoru
Belgeleri makine öğrenmesiyle sınıflandırmak Her sınıf için 20+ belge build_classifier + cross_validate_tamga CV doğruluğu / F1
Görselleştirme için öznitelikleri boyut indirgemek herhangi bir FeatureMatrix PCAReducer / UMAPReducer / TSNEReducer / MDSReducer görsel inceleme
Bayes yaklaşımıyla tek-aday yazar tespiti N aday × ≥1k sözcük; 1 sorgulanan belge BayesianAuthorshipAttributor aday başına sonsal olasılık
MFW bantları üzerinde bootstrap konsensüs ağacı 10+ belge, birden fazla MFW bandı BootstrapConsensus klad desteği ile Newick ağacı

Adli — tek-olgu doğrulama

Amaç Gerekli veri Yöntem Öne çıkan ölçüt Öğretici
1 sorgulanan belge ile 1 aday arasında "aynı yazar mı?" sorusunu doğrulamak 1 adayın bilinen yazıları + bir sahte-aday havuzu (~100 belge) GeneralImpostors kalibre edilmiş log-LR + C_llr PAN-CLEF
Konudan bağımsız aynı-yazar doğrulaması uzun düzyazı Q + K + sahte-aday havuzu Unmasking doğruluk düşüş eğrisi PAN-CLEF
Doğrulamada konu yanlılığını azaltmak herhangi bir derlem CategorizedCharNgramExtractor, categories=("prefix","suffix","punct"); veya distort_corpus(mode="dv_ma") yukarı akışlı doğrulayıcıyla aynı PAN-CLEF
Ham doğrulayıcı skorlarını kanıtsal olabilirlik oranına dönüştürmek etiketli geliştirme denemelerinde doğrulayıcı çıktıları CalibratedScorer + compute_pan_report log-LR, C_llr, ECE PAN-CLEF
Mahkemeye uygun LR çerçeveli rapor üretmek delil zinciri alanlarıyla birlikte Result build_forensic_report ENFSI sözel ölçeği

Bu sayfa nasıl okunur

  • "Gerekli veri" bir asgaridir — daha fazlası her zaman daha iyidir.
  • "Öne çıkan ölçüt" yazımda alıntılamanız gereken çıktıdır, yöntemin ürettiği tek çıktı değildir.
  • Aynı görev için iki yöntem listelendiğinde ilki önerilen varsayılandır; ikincisi değerlendirmeye değer yayımlanmış bir alternatiftir.

Sonraki

  • Yöntemler — yöntem başına gloss + ayrıntı içeren tam katalog.
  • Öznitelikler — öznitelik çıkarıcı başına gloss + ayrıntı içeren katalog.
  • Adli araç seti — kalibrasyon, değerlendirme, raporlama.