Szerzőazonosítás Jacob és Wilhelm Grimm zajos, digitalizált levelezésében
DOI:
https://doi.org/10.31400/dh-hun.2021.5.3144Kulcsszavak:
stilometria, szerzőazonosítás, német irodalom, Grimm, digitalizáció, OCR, HTRAbsztrakt
Az alábbi cikk egy multidiszciplináris projekt eredményeit mutatja be, amely a különböző digitalizációs stratégiák számítógépes szöveganalízisben való használhatóságát járja körül. Pontosabban Jacob és Wilhelm Grimm szerzőségének automatizált megkülönböztetésére tettünk kísérletet, melyet egy HTR (Handwritten
Text Recognition – kézzel írott szöveg felismerése) és OCR (Optical Character Recognition – optikai karakterfelismerés) által feldolgozott levelezéskorpuszban hajtottunk végre, korrekció nélkül – felmérve, hogy az így keletkezett zaj milyen hatással van a fivérek különböző írásmódjának azonosítására. Összegezve,
úgy tűnik, hogy az OCR megbízható helyettesítője lehet a manuális átírásnak, legalábbis a szerzőazonosítás kérdéskörét illetően. Eredményeink továbbá abba az irányba mutatnak, miszerint még a különböző digitalizációs eljárásokból származó tanító- és tesztkorpuszok (training and test set) is használhatók a szerzőazonosítás során. A HTR-t tekintve a kutatás azt demonstrálja, hogy ez az automatizált átírás ugyan az OCR-hez képest szignifikánsan növeli a szövegek félrecsoportosításának veszélyét, ám körülbelül 20% feletti tisztaság már önmagában elegendő ahhoz, hogy a véletlennél nagyobb esélye legyen a helyes bináris
megfeleltetésnek.
##submission.downloads##
Megjelent
Hogyan kell idézni
Folyóiratszám
Rovat
License
Copyright (c) 2021 a szerző(k)
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.