OPAL
Online publizierte Arbeiten zur Linguistik
- Nummer 1/2005:
- Weiß, Christian: Die thematische Erschließung von Sprachkorpora.
14 S. - Mannheim: Institut für Deutsche Sprache, 2005.
ISSN: 1860-9422
→Diese Nummer anzeigen (9,6 MB)
Diese Nummer ist im IDS verfügbar:
![[Online]](/icons/online.gif)
Der Aufsatz beschreibt die thematische Erschließung der Korpora, um sowohl themenspezifische virtuelle Subkorpora zusammenstellen zu können als auch aufgrund der Analyse sachgebietsbezogener Häufigkeitsverteilungen z.B. Lesarten disambiguieren zu können. Ausgangspunkt ist die Erstellung einer Taxonomie von Sachgebietsthemen. Dies erfolgt in einem semiautomatischen Verfahren, welches die Anwendung von Textmining (Dokumentclustering) und die manuelle Zuordnung von Clustern in eine externe Ontologie beinhaltet. Es wird argumentiert, dass die so gewonnene Taxonomie sowohl intuitiver als auch objektiver ist als bestehende, rein manuelle Ansätze. Sie eignet sich zudem gleichermaßen für manuelle als auch für maschinelle Klassifikation. Für letzteres wird der Naive Bayes'sche Textklassifikator motiviert und für ein klassifiziertes Korpus von knapp zwei Milliarden Wörtern evaluiert.
Inhaltsverzeichnis
1. | Motivation | S. 1 | |
2. | Aufbau | S. 2 | |
3. | Die Auswertung | S. 8 | |
4. | Sonstige Ergebnisse | S. 12 | |
5. | Zusammenfassung | S. 13 | |
Literatur | S. 13 |