Szerzőazonosítás Jacob és Wilhelm Grimm zajos, digitalizált levelezésében

Szerzők

DOI:

https://doi.org/10.31400/dh-hun.2021.5.3144

Kulcsszavak:

stilometria, szerzőazonosítás, német irodalom, Grimm, digitalizáció, OCR, HTR

Absztrakt

Az alábbi cikk egy multidiszciplináris projekt eredményeit mutatja be, amely a különböző digitalizációs stratégiák számítógépes szöveganalízisben való használhatóságát járja körül. Pontosabban Jacob és Wilhelm Grimm szerzőségének automatizált megkülönböztetésére tettünk kísérletet, melyet egy HTR (Handwritten
Text Recognition – kézzel írott szöveg felismerése) és OCR (Optical Character Recognition – optikai karakterfelismerés) által feldolgozott levelezéskorpuszban hajtottunk végre, korrekció nélkül – felmérve, hogy az így keletkezett zaj milyen hatással van a fivérek különböző írásmódjának azonosítására. Összegezve,
úgy tűnik, hogy az OCR megbízható helyettesítője lehet a manuális átírásnak, legalábbis a szerzőazonosítás kérdéskörét illetően. Eredményeink továbbá abba az irányba mutatnak, miszerint még a különböző digitalizációs eljárásokból származó tanító- és tesztkorpuszok (training and test set) is használhatók a szerzőazonosítás során. A HTR-t tekintve a kutatás azt demonstrálja, hogy ez az automatizált átírás ugyan az OCR-hez képest szignifikánsan növeli a szövegek félrecsoportosításának veszélyét, ám körülbelül 20% feletti tisztaság már önmagában elegendő ahhoz, hogy a véletlennél nagyobb esélye legyen a helyes bináris
megfeleltetésnek.

Megjelent

2021-12-31

Hogyan kell idézni

Franzini, Greta, Mike Kestemont, Gabriela Rotari, Melina Jander, Jeremi K. Ochab, Emily Franzini, Joanna Byszuk, és Jan Rybicki. 2021. „Szerzőazonosítás Jacob és Wilhelm Grimm Zajos, digitalizált levelezésében”. Digitális Bölcsészet, sz. 5 (december):T:39-T:68. https://doi.org/10.31400/dh-hun.2021.5.3144.