Gesellschaft Sozialwissenschaftlicher Infrastruktureinrichtungen
SuchenSitemapHilfe
GESIS Servicestelle Osteuropa Zentrum für Umfragen, Methoden und Analysen
Informationszentrum Sozialwissenschaften Zentralarchiv für Empirische Sozialforschung, Universität zu Köln

Literatur- & Forschungsinformation

Datenservice & Archivierung

Dauerbeobachtung

Methodenberatung

Forschung & Entwicklung

Software

DDI Tools

Exanda

NSDstat Pro

Schildkröte

TEXTPACK

Beschreibung

Aktuelles

FAQ

Preise

Bestellung

Demo-Version

Publikationen

Forschung

Publikationen

 

Bestellen & Downloads

Veranstaltungen

GESIS-Bibliotheken

Linksammlung SocioGuide

 

Kooperationen

Beratung

Mitarbeiter & Adressen

Presse

Organisation

 

Impressum

 

 

 

Häufige Fragen zu TEXTPACK - FAQ

Identifikatoren und Texteinheiten

Was sind Texteinheiten und wozu benötigt man sie?

Wie werden Texteinheiten gekennzeichnet?

Welche Regeln gibt es für die Definition von Texteinheiten und Identifikatoren?

Müssen immer Identifikatoren definiert werden?

Was tun, wenn mehr als drei Identifikationsebenen benötigt werden?


Was sind Texteinheiten und wozu benötigt man sie?

Ein Text ist zusammengesetzt aus Texteinheiten. Eine Einheit kann z.B. ein Satz, eine Antwort auf eine offene Frage, ein Zeitungsartikel oder ein Buchabsatz sein. Die inhaltliche Definition einer Texteinheit muss vom Benutzer festgelegt werden. Jeder Text besteht aus mindestens einer Texteinheit.

Texteinheiten müssen immer eindeutig festgelegt und gekennzeichnet sein (siehe auch "Wie werden Texteinheiten gekennzeichnet"). Nur auf das, was als Texteinheit explizit gekennzeichnet ist, kann bei der weiteren Analyse gezielt zugegriffen werden. Sie können in Filterdefinitionen und als Codier- und Analyseeinheiten verwendet werden. 


Wie werden Texteinheiten gekennzeichnet?

Texteinheiten werden durch Identifikatoren eindeutig gekennzeichnet. Es können bis zu drei Identifikationsebenen angegeben werden (ID1, ID2, ID3). 

Hier einige Beispiele:

  • Sind als Texte z.B. Antworten auf offene Fragen vorgegeben, können die Identifikationsebenen, die die Texteinheiten festlegen, die Fragebogennummer (ID1) und die Nummer der offenen Frage (ID2) sein. 
  • Werden Zeitungsartikel aus  verschiedenen Zeitungen analysiert, kann z.B. die erste Identifikationsebene die Zeitung sein, die zweite Ebene das Datum und die dritte Ebenen der Satz. Die Identifikation der Zeitung muss in diesem Fall numerisch verschlüsselt werden (z.B. FAZ=1, Süddeutsche Zeitung=2).
  • Die Zeitungsartikel können aber auch durch die Kennung der Zeitung, die Rubrik und eine Artikelnummer innerhalb dieser Rubrik gekennzeichnet sein.
  • Handelt es sich bei den Texten um die Abschrift von Diskussionsrunden, könnte ID1 die Kennung der Runde und ID2 eine Sprecherkennung enthalten (z.B. =1 Moderator, =2 Herr Schmidt, =3 Herr Maier).  

Es gibt viele verschiedene Möglichkeiten, und die Wahl der Texteinheiten und Identifikatoren hängt stark von der Fragestellung und den zu analysierenden Texten ab. 


Welche Regeln gibt es für die Definition von Texteinheiten und Identifikatoren?

Für das Definieren von Identifikatoren müssen einige Regeln beachtet werden:

  • Identifikatoren müssen immer eindeutig sein, d.h. jede Texteinheit muss eindeutig zu erkennen sein. Die Kombination aller drei Identifikationen darf in einer Datei nur einmal vorkommen. Damit ist sichergestellt, dass z.B. nach der Codierung eindeutig ist, welcher Einheit (z.B. welcher Antwort auf eine offene Frage) bestimmte Codes zugewiesen wurden. 
  • Identifikatoren müssen hierarchisch aufgebaut werden. Ein Beispiel dafür ist die Gliederung eines Buches: die oberste Ebene können die Kapitel sein (ID1). Jedes Kapitel ist unterteilt in Absätze (ID-Ebene 2) und die Absätze sind wieder unterteilt in Sätze (ID3). Ein anderes Beispiel sind Antworten auf offene Fragen: jeder Befrage hat eine Befragtenkennung (ID1) und jeder Befrage hat z.B. 5 offene Fragen beantwortet, die mit 1-5 nummeriert sind.
  • Handelt es sich bei den Texten um Diskussionsrunden oder andere Arten von Texten, bei denen der Sprecherwechsel Berücksichtigung finden muss, kann von dieser Regel insofern abgewichen werden, als es möglich ist im untersten ID-Level eine Sprecherkennung zu definieren (bis zu 99 verschiedene Sprecher sind möglich). 
  • Die Texte müssen entsprechend den Identifikatoren aufsteigend sortiert werden (siehe auch "Was tun, wenn die Texte nicht sortiert vorliegen").
  • Es können maximal drei Identifikationsebenen definiert werden (siehe auch "Was tun, wenn mehr als drei Identifikationsebenen benötigt werden").
  • Identifikatoren sollten immer numerisch sein, d.h. keine Buchstaben oder Sonderzeichen enthalten.
  • Die ersten beiden Identifikationsebenen können maximal 6-stellig definiert werden, die dritte Ebene 5-stellig.
  • Die unterste ID-Ebene kann automatisch generiert werden. Sollen als unterste Identifikationsebene Sätze verwendet werden, kann spezifiziert werden, dass jeder Punkt, jedes Ausrufezeichen oder jedes Fragezeichen eine neue Einheit festlegen soll. Es können aber auch z.B. Absätze durch ein Sonderzeichen markiert werden, das zum Zerlegen in Absätze als unterste ID-Ebene verwendet wird. 


Müssen immer Identifikatoren definiert werden?

Jeder Text muss in Texteinheiten unterteilt werden. Gibt es allerdings keine sinnvollen nutzerdefinierten Einheiten, kann der Text am einfachsten in Sätze zerlegt werden. Es kann in den Optionen beim Erstellen der Sentence-Datei festgelegt werden,  dass jeder Punkt, jedes Ausrufezeichen oder jedes Fragezeichen eine neue Einheit festlegen soll. Der Text wird dann automatisch entsprechend aufgeteilt.  

 


Was tun, wenn mehr als drei Identifikationsebenen benötigt werden?

Oft ist es möglich, mehrere Identifikationsebenen in einer ID zusammenzufassen. ID1 und ID2 können jeweils 6-stellig sein. So könnte z.B. ID1 ein Datum, ID2 in Position 1 und 2 die Kennung der Zeitung und in Position 3 eine Kennzeichnung für Überschrift oder Text und in Position 5 und 6 eine Artikelnummer innerhalb dieser Rubrik enthalten. ID3 kann dann z.B. als Satz definiert werden.

Liegt aber mehr numerische Information vor, die zum Kennzeichen einer ID notwendig ist, kann diese Information in einer Datei gespeichert werden und mit  der Option "Select by numeric data" kann auf diese Daten als Filter zugegriffen werden.   

 


home (english)

home (spanish)

© GESIS  Cornelia Züll 14.06.06