|
|
Systemdateien in TEXTPACK (Sentence- und Split-Dateien)
Texte, die in TEXTPACK analysiert werden sollen, müssen zunächst
immer als "Textdatei" (plain text, ASCII/ANSII) vorliegen.
Diese Textdatei wird zunächst in TEXTPACK eingelesen. Dann müssen in TEXTPACK immer zwei Systemdateien erstellt werden: die
Sentence-Datei ("File", "Prepare Sentence file") und
die Split-Datei ("File", "Prepare Split file"). Sind
diese beiden Dateien erst einmal erstellt, können alle weiteren Analysen
darauf aufbauend durchgeführt werden.

Werden beim Erstellen der Sentence-Datei Fehler angezeigt, müssen sie
immer korrigiert werden. Zu diesen Fehlern gehören z.B. fehlende
ID-Ebenen, doppelte IDs, nicht-numerische Einträge, falsche Sortierung,
zu lange Einheiten. Werden die Fehler nicht korrigiert, werden die
betroffenen Texteinheiten nicht in die Analysedatei übernommen.
Fehler im Text (Tippfehler etc.), die von TEXTPACK nicht angezeigt
werden, müssen nicht korrigiert werden. Sie
müssen später bei der Analyse entsprechend behandelt werden (z.B. durch
Berücksichtigung des falsch geschrieben Wortes im Diktionär).

In TEXTPACK selbst können die Fehler nicht korrigiert werden. Sie
müssen in der Originaldatei korrigiert werden, aus der dann wieder eine
Sentence-Datei und eine Split-Datei erstellt werden muss.

Texte in TEXTPACK müssen immer sortiert nach den Identifikatoren
vorliegen. Meldet TEXTPACK beim Erstellen der Sentence-Datei einen Fehler
in der Sortierung kann dies zwei Ursachen haben:
- Eine Identifikation wurde falsch angegeben (z.B. 134 anstelle
143). In diesem Fall muss der Fehler korrigiert werden und die Datei
neu erstellt werden.
- Liegen die Einheiten allerdings tatsächlich unsortiert vor (z.B.
weil die Fragebögen nach Eingangsdatum und nicht nach
Befragtenidentifikation sortiert waren, kann man die Texte abhängig
vom vorliegenden Format in
TEXTPACK sortieren.
Liegt die Textdatei im Format "fixed" vor, kann
beim Erstellen der Sentence-Datei im Menü beim Erstellen der Datei "Sort
the input text" angegeben werden. TEXTPACK sortiert dann automatisch die Texte
nach den angegebenen IDs.
Liegt die Datei im TEXTPACK-Format "standard" vor, sind
einige Zwischenschritte nötig. Zunächst wird die Sentence-Datei
erstellt, und man erhält eine Meldung über nicht sortierte
Einheiten. Die Zahl der zugelassenen Warnungen muss so hoch eingestellt
werden, dass die TEXTPACK-Datei komplett erstellt wird. Das
Ausschalten der Option "Print all warnings for incorrectly
sorted IDs" verhindert die Ausgabe unzähliger Warnungen. Die
so erstellte Datei kann mit "Export text" wieder in eine
reine Textdatei umgewandelt werden. Beim Exportieren wird ein
Protokoll über den Aufbau der neuen Datei erstellt (wichtig!). Aus
dieser Datei kann nun wieder eine Sentence-Datei erstellt werden.
Das Format ist "fixed". Die Angaben über Position und
Länge der IDs und des Textes kann dem vorher erstellten Protokoll
entnommen werden. Beim Erstellen der Systemdatei kann die Option
"Sort the input text" aktiviert werden und die Texte
werden nun automatisch in die richtige Reihenfolge
gebracht.

© GESIS Cornelia
Züll 14.06.06
|