• Treffer 1 von 43
Zurück zur Trefferliste

POS-Tagging Historical Corpora: The Case of Early New High German

  • A key problem in automatic annotation of historical corpora is inconsistent spelling. Because the spelling of some word forms can differ between texts, a language model trained on already annotated treebanks may fail to recognize known word forms due to differences in spelling. In the present work, we explore the feasibility of an unsupervised method for spelling-adjustment for the purpose of improved part of speech (POS) tagging. To this end, we present a method for spelling normalization based on weighted edit distances, which exploits within-text spelling variation. We then evaluate the improvement in taging accuracy resulting from between-texts spelling normalization in two tagging experiments on several Early New High German (ENHG) texts.
Metadaten
Verfasserangaben:Ulrike DemskeORCiDGND, Pavel LogacevORCiDGND, Katrin Goldschmidt
Titel des übergeordneten Werks (Englisch):Proceedings of the thirteenth workshop on treebanks and linguistic theories (TLT 13)
Verlag:TALAR - Tübingen Archive of Language Resources
Verlagsort:Tübingen
Publikationstyp:Konferenzveröffentlichung
Sprache:Englisch
Datum der Erstveröffentlichung:13.12.2014
Erscheinungsjahr:2014
Veröffentlichende Institution:Universität Potsdam
Datum der Freischaltung:04.02.2020
Band:2014
Seitenanzahl:10
Erste Seite:103
Letzte Seite:112
Organisationseinheiten:Philosophische Fakultät / Institut für Germanistik
DDC-Klassifikation:4 Sprache / 41 Linguistik / 415 Grammatik
Verstanden ✔
Diese Webseite verwendet technisch erforderliche Session-Cookies. Durch die weitere Nutzung der Webseite stimmen Sie diesem zu. Unsere Datenschutzerklärung finden Sie hier.