Classifying news versus opinions in newspapers
- Newspaper text can be broadly divided in the classes ‘opinion’ (editorials, commentary, letters to the editor) and ‘neutral’ (reports). We describe a classification system for performing this separation, which uses a set of linguistically motivated features. Working with various English newspaper corpora, we demonstrate that it significantly outperforms bag-of-lemma and PoS-tag models. We conclude that the linguistic features constitute the best method for achieving robustness against change of newspaper or domain.
Verfasserangaben: | K. R. Krüger, A. Lukowiak, J. Sonntag, Saskia Warzecha, Manfred StedeORCiDGND |
---|---|
DOI: | https://doi.org/10.1017/S1351324917000043 |
ISSN: | 1351-3249 |
ISSN: | 1469-8110 |
Titel des übergeordneten Werks (Englisch): | Natural language engineering |
Untertitel (Englisch): | linguistic features for domain independence |
Verlag: | Cambridge Univ. Press |
Verlagsort: | Cambridge |
Publikationstyp: | Wissenschaftlicher Artikel |
Sprache: | Englisch |
Datum der Erstveröffentlichung: | 21.02.2017 |
Erscheinungsjahr: | 2017 |
Datum der Freischaltung: | 11.04.2022 |
Band: | 23 |
Seitenanzahl: | 21 |
Erste Seite: | 687 |
Letzte Seite: | 707 |
Fördernde Institution: | German Federal Ministry of Education and Research (BMBF) [01UG1234] |
Organisationseinheiten: | Humanwissenschaftliche Fakultät / Strukturbereich Kognitionswissenschaften / Department Linguistik |
DDC-Klassifikation: | 4 Sprache / 41 Linguistik / 410 Linguistik |
Peer Review: | Referiert |
Name der Einrichtung zum Zeitpunkt der Publikation: | Humanwissenschaftliche Fakultät / Exzellenzbereich Kognitionswissenschaften |