|
|
Identifikatoren und Texteinheiten
Ein Text ist zusammengesetzt aus Texteinheiten. Eine Einheit kann z.B.
ein Satz, eine Antwort auf eine offene Frage, ein Zeitungsartikel oder ein
Buchabsatz sein. Die inhaltliche Definition einer Texteinheit muss vom Benutzer festgelegt werden.
Jeder Text besteht aus mindestens einer Texteinheit.
Texteinheiten müssen immer eindeutig festgelegt und gekennzeichnet
sein (siehe auch "Wie werden Texteinheiten
gekennzeichnet"). Nur auf das, was als Texteinheit explizit
gekennzeichnet ist, kann bei der weiteren Analyse gezielt zugegriffen werden. Sie können in
Filterdefinitionen und als Codier- und Analyseeinheiten verwendet
werden.

Texteinheiten werden durch Identifikatoren eindeutig gekennzeichnet. Es
können bis zu drei Identifikationsebenen angegeben werden (ID1, ID2,
ID3).
Hier einige Beispiele:
- Sind als Texte z.B. Antworten auf offene Fragen vorgegeben, können
die Identifikationsebenen, die die Texteinheiten festlegen, die
Fragebogennummer (ID1) und die Nummer der offenen Frage (ID2)
sein.
- Werden Zeitungsartikel aus verschiedenen Zeitungen analysiert,
kann z.B. die erste Identifikationsebene die Zeitung sein, die zweite
Ebene das Datum und die dritte Ebenen der Satz. Die Identifikation der
Zeitung muss in diesem Fall numerisch verschlüsselt werden (z.B.
FAZ=1, Süddeutsche Zeitung=2).
- Die Zeitungsartikel können aber auch durch die Kennung der Zeitung,
die Rubrik und eine Artikelnummer innerhalb dieser Rubrik
gekennzeichnet sein.
- Handelt es sich bei den Texten um die Abschrift von
Diskussionsrunden, könnte ID1 die Kennung der Runde und ID2 eine
Sprecherkennung enthalten (z.B. =1 Moderator, =2 Herr Schmidt, =3 Herr
Maier).
Es gibt viele verschiedene Möglichkeiten, und die Wahl der
Texteinheiten und Identifikatoren hängt stark von der Fragestellung und den zu analysierenden Texten ab.

Für das Definieren von Identifikatoren müssen einige Regeln beachtet
werden:
- Identifikatoren müssen immer eindeutig sein, d.h. jede Texteinheit
muss eindeutig zu erkennen sein. Die Kombination aller drei
Identifikationen darf in einer Datei nur einmal vorkommen. Damit ist
sichergestellt, dass z.B. nach der Codierung eindeutig ist, welcher
Einheit (z.B. welcher Antwort auf eine offene Frage) bestimmte Codes
zugewiesen wurden.
- Identifikatoren müssen hierarchisch aufgebaut werden. Ein Beispiel
dafür ist die Gliederung eines Buches: die oberste Ebene können die
Kapitel sein (ID1). Jedes Kapitel ist unterteilt in Absätze (ID-Ebene
2) und die Absätze sind wieder unterteilt in Sätze (ID3). Ein
anderes Beispiel sind Antworten auf offene Fragen: jeder Befrage hat
eine Befragtenkennung (ID1) und jeder Befrage hat z.B. 5 offene Fragen
beantwortet, die mit 1-5 nummeriert sind.
- Handelt es sich bei den Texten um Diskussionsrunden oder andere Arten
von Texten, bei denen der Sprecherwechsel Berücksichtigung finden
muss, kann von dieser Regel insofern abgewichen werden, als es
möglich ist im untersten ID-Level eine Sprecherkennung zu definieren
(bis zu 99 verschiedene Sprecher sind möglich).
- Die Texte müssen entsprechend den Identifikatoren aufsteigend
sortiert werden (siehe auch "Was tun, wenn die Texte nicht
sortiert vorliegen").
- Es können maximal drei Identifikationsebenen definiert werden
(siehe auch "Was tun, wenn mehr als drei
Identifikationsebenen benötigt werden").
- Identifikatoren sollten immer numerisch sein, d.h. keine Buchstaben
oder Sonderzeichen enthalten.
- Die ersten beiden Identifikationsebenen können maximal 6-stellig
definiert werden, die dritte Ebene 5-stellig.
- Die unterste ID-Ebene kann automatisch generiert werden. Sollen als
unterste Identifikationsebene Sätze verwendet werden, kann
spezifiziert werden, dass jeder Punkt, jedes Ausrufezeichen oder jedes
Fragezeichen eine neue Einheit festlegen soll. Es können aber auch
z.B. Absätze durch ein Sonderzeichen markiert werden, das zum
Zerlegen in Absätze als unterste ID-Ebene verwendet wird.

Jeder Text muss in Texteinheiten unterteilt werden. Gibt es allerdings
keine sinnvollen nutzerdefinierten Einheiten, kann der Text am einfachsten
in Sätze zerlegt werden. Es kann in den Optionen beim Erstellen der
Sentence-Datei festgelegt werden, dass jeder Punkt, jedes
Ausrufezeichen oder jedes Fragezeichen eine neue Einheit festlegen soll.
Der Text wird dann automatisch entsprechend aufgeteilt.

Oft ist es möglich, mehrere Identifikationsebenen in einer ID
zusammenzufassen. ID1 und ID2 können jeweils 6-stellig sein. So könnte
z.B. ID1 ein Datum, ID2 in Position 1 und 2 die Kennung der Zeitung und in
Position 3 eine Kennzeichnung für Überschrift oder Text und in
Position 5 und 6 eine Artikelnummer innerhalb dieser Rubrik enthalten. ID3
kann dann z.B. als Satz definiert werden.
Liegt aber mehr numerische Information vor, die zum Kennzeichen einer
ID notwendig ist, kann diese Information in einer Datei gespeichert werden
und mit der Option "Select by numeric data" kann auf diese
Daten als Filter zugegriffen werden.

© GESIS Cornelia
Züll 14.06.06
|