Adli araç seti¶
Adli dilbilim (forensic linguistics) araştırmaları yalnızca yazar tespitinin ötesini gerektirir: tek sınıflı doğrulama, konudan bağımsız öznitelikler ve referans popülasyona göre kalibre edilmiş olabilirlik oranı (likelihood ratio) olarak biçimlendirilmiş kanıtsal çıktı.
tamga.forensic, bu bileşenleri analiz yöntemlerinin üzerine tutarlı bir katman olarak sunar. Her araç sınıflandırıcıdan bağımsızdır; herhangi bir tamga öznitelik kümesiyle ve herhangi bir Delta / Zeta / classify yöntemiyle birleştirilebilir.
Pakette neler var¶
from tamga.forensic import (
# Doğrulama
GeneralImpostors, # Koppel & Winter 2014
Unmasking, # Koppel & Schler 2004
# Konudan bağımsız öznitelikler
CategorizedCharNgramExtractor, # Sapkota et al. 2015
distort_corpus, distort_text, # Stamatatos 2013
# Kalibrasyon + LR çıktısı
CalibratedScorer, # Platt / isotonic
log_lr_from_probs,
log_lr_from_probs_with_priors,
# Değerlendirme metrikleri (PAN menüsü)
auc, c_at_1, f05u, brier, ece, cllr, tippett,
PANReport, compute_pan_report,
)
from tamga.report import build_forensic_report # LR tabanlı HTML şablonu
Adli iş akışı¶
flowchart LR
Q["Sorgulanan<br>belge Q"] --> V
K["Bilinen belgeler K<br>(aday yazar)"] --> V
I["Sahte yazar havuzu I"] --> V
V["Doğrulama<br>(GI veya Unmasking)"] --> S["Ham puan"]
S --> CAL["CalibratedScorer"]
CAL --> LR["log<sub>10</sub>-LR"]
LR --> PAN["PANReport<br>auc, c@1, F0.5u,<br>Brier, ECE, C_llr"]
LR --> REP["Adli HTML raporu<br>(LR + delil zinciri bloğu)"]
style V fill:#FBF3DE,stroke:#C9A34A
style CAL fill:#FBF3DE,stroke:#C9A34A
style LR fill:#FBF3DE,stroke:#C9A34A
style PAN fill:#FBF3DE,stroke:#C9A34A
style REP fill:#FBF3DE,stroke:#C9A34A
LR çerçevesinin önemi¶
Adli dilbilim dergileri (IJSLL, Language and Law) ve mahkeme kabul kriterleri (ABD'de Daubert, İngiltere'de R v T ve halefleri) kanıtın olabilirlik oranı (likelihood ratio) biçiminde sunulmasını bekler:
$$ \text{LR} = \frac{P(E \mid H_1)}{P(E \mid H_0)} $$
— bu, aynı-yazar hipotezi altında kanıtın olasılığının farklı-yazar altındaki olasılığa oranıdır; bunun için kalibre edilmiş bir temel puanlayıcı gereklidir. Ham sınıflandırıcı posteriorları nadiren kalibredir ve adli semantiği yanlış temsil eden "suçluluk olasılığı" biçiminde kolayca kötüye kullanılabilir.
tamga'nın CalibratedScorer + log_lr_from_probs işlem hattı, herhangi bir ham puanı adli raporda savunulabilir bir log-LR değerine dönüştürür. Rapor şablonundaki yerleşik ENFSI / Nordgaard sözel ölçeği (verbal scale), şeffaf bir sözel okuma sunar.
Delil zinciri¶
Her Provenance kaydı altı isteğe bağlı adli dilbilim alanını kabul eder:
questioned_description— sorgulanan belge Q'nun serbest metin açıklamasıknown_description— bilinen belge K'nın serbest metin açıklamasıhypothesis_pair— ör."H1: X tarafından yazıldı; H0: X dışında biri tarafından yazıldı"acquisition_notes— kaynak materyalin nasıl elde edildiği (arama kararı, görüntü, vb.)custody_notes— ek delil zinciri (chain of custody) açıklamalarısource_hashes— orijinal dosyalarındict[document_id, SHA-256]özet değerleri
Bu bilgiler, oluşturulan adli raporda ayrılmış bir Delil zinciri bloğuna aktarılır.