Yöntem seçimi¶

Hangi tamga yönteminin sorunuza uyacağından emin değil misiniz? Bu sayfa en yaygın durumlar için "X'i yapmak istiyorum — hangisini kullanmalıyım?" sorusunu yanıtlar. Yöntem adları tam ayrıntı için Yöntemler ve Adli araç seti sayfalarındaki birincil girdilere bağlanır.

Yazar tespiti, karşılaştırma, keşif¶

Amaç	Gerekli veri	Yöntem	Öne çıkan ölçüt	Öğretici
1 sorgulanan belgeyi N aday yazar arasından tespit etmek	Her aday için ~2k+ sözcük bilinen metin; 1 sorgulanan belge	`CosineDelta` (sağlam varsayılan) veya `BurrowsDelta` (klasik)	en yakın yazar sıralaması	Federalist
Bilinmeyen bir derlemi biçemsel benzerlikle kümelemek	20+ belge, etiketler isteğe bağlı	`PCAReducer` + `KMeansCluster` veya `HDBSCANCluster`	silhouette, görsel inceleme	—
Önceden tanımlı iki yazar grubunu karşılaştırmak	Her grup için 10+ belge	`ZetaClassic` veya `ZetaEder`	sözcük başına ayırt edicilik skoru	—
Belgeleri makine öğrenmesiyle sınıflandırmak	Her sınıf için 20+ belge	`build_classifier` + `cross_validate_tamga`	CV doğruluğu / F1	—
Görselleştirme için öznitelikleri boyut indirgemek	herhangi bir `FeatureMatrix`	`PCAReducer` / `UMAPReducer` / `TSNEReducer` / `MDSReducer`	görsel inceleme	—
Bayes yaklaşımıyla tek-aday yazar tespiti	N aday × ≥1k sözcük; 1 sorgulanan belge	`BayesianAuthorshipAttributor`	aday başına sonsal olasılık	—
MFW bantları üzerinde bootstrap konsensüs ağacı	10+ belge, birden fazla MFW bandı	`BootstrapConsensus`	klad desteği ile Newick ağacı	—

Adli — tek-olgu doğrulama¶

Amaç	Gerekli veri	Yöntem	Öne çıkan ölçüt	Öğretici
1 sorgulanan belge ile 1 aday arasında "aynı yazar mı?" sorusunu doğrulamak	1 adayın bilinen yazıları + bir sahte-aday havuzu (~100 belge)	`GeneralImpostors`	kalibre edilmiş log-LR + `C_llr`	PAN-CLEF
Konudan bağımsız aynı-yazar doğrulaması	uzun düzyazı Q + K + sahte-aday havuzu	`Unmasking`	doğruluk düşüş eğrisi	PAN-CLEF
Doğrulamada konu yanlılığını azaltmak	herhangi bir derlem	`CategorizedCharNgramExtractor`, `categories=("prefix","suffix","punct")`; veya `distort_corpus(mode="dv_ma")`	yukarı akışlı doğrulayıcıyla aynı	PAN-CLEF
Ham doğrulayıcı skorlarını kanıtsal olabilirlik oranına dönüştürmek	etiketli geliştirme denemelerinde doğrulayıcı çıktıları	`CalibratedScorer` + `compute_pan_report`	log-LR, `C_llr`, `ECE`	PAN-CLEF
Mahkemeye uygun LR çerçeveli rapor üretmek	delil zinciri alanlarıyla birlikte `Result`	`build_forensic_report`	ENFSI sözel ölçeği	—

Bu sayfa nasıl okunur¶

"Gerekli veri" bir asgaridir — daha fazlası her zaman daha iyidir.
"Öne çıkan ölçüt" yazımda alıntılamanız gereken çıktıdır, yöntemin ürettiği tek çıktı değildir.
Aynı görev için iki yöntem listelendiğinde ilki önerilen varsayılandır; ikincisi değerlendirmeye değer yayımlanmış bir alternatiftir.

Sonraki¶

Yöntemler — yöntem başına gloss + ayrıntı içeren tam katalog.
Öznitelikler — öznitelik çıkarıcı başına gloss + ayrıntı içeren katalog.
Adli araç seti — kalibrasyon, değerlendirme, raporlama.