Gesellschaft Sozialwissenschaftlicher Infrastruktureinrichtungen
SuchenSitemapHilfe
GESIS Servicestelle Osteuropa Informationszentrum Sozialwissenschaften  
Zentralarchiv für Empirische Sozialforschung, Universität zu Köln Zentrum für Umfragen, Methoden und Analysen

Literatur- & Forschungsinformation

Datenservice

Dauerbeobachtung

Methodenberatung

Forschung & Entwicklung

Informationstechnologie

Software

Publikationen

 

Bestellen & Downloads

Veranstaltungen

GESIS-Bibliotheken

Linksammlung SocioGuide

 

Kooperationen

Mitarbeiter & Adressen

Presse

Organisation

 

Impressum


 

 

Content Analysis, Retrieval and MetaData: Effective Networking (CARMEN)

Arbeitspaket 11: Heterogenitätsbehandlung bei textueller Information verschiedener Datentypen und Inhaltserschließungsverfahren

Bearbeitung: Robert Strötgen, Peter Mutschke, Dr. Jutta Marx
Leitung: Dr. Jutta Marx
Kontakt: Dr. Maximilian Stempfhuber

Projektbeschreibung:

Die Sonderfördermaßnahme CARMEN zielt darauf ab, in der heutigen dezentralen Informationswelt geeignete Informationssysteme für die verteilten Datenbestände in Bibliotheken, Fachinformationszentren und im Internet zu schaffen. Diese Zusammenführung ist weniger technisch als inhaltlich und konzeptuell problematisch. Heterogenität tritt beispielsweise auf, wenn unterschiedliche Datenbestände verschiedene Thesauri oder Klassifikationen benutzen, wenn Metadaten unterschiedlich oder überhaupt nicht erfasst werden oder wenn intellektuell aufgearbeitete Quellen mit in der Regel vollständig unerschlossenen Internetdokumenten zusammentreffen. Das Ziel ist eine (semantische) Verbesserung der Ausweitung von Recherchen in Fachdatenbanken zu Internet-Recherchen und umgekehrt.
Das Erzeugen fehlender Metadaten aus den Dokumenten stellt in diesem Arbeitspaket einen Ansatz zur Verbesserung des Retrieval dar. Über deduktiv-heuristische Verfahren werden Metadaten (Titel, Autor, Institution, Keywords und Abstract) automatisch aus Dokumenten generiert. Durch eine genaue Analyse der in exemplarischen Dokumenten vorgefundenen Heterogenität wurden Heuristiken zum Auffinden fehlender Metadaten erstellt.
Mit statistisch-quantitativen Methoden lassen sich in einem zweiten Ansatz die unterschiedlichen Verwendungen von Termen in den verschiedenen Beständen aufeinander abbilden. Für mathematische Dokumente liegen teilweise Doppelkorpora vor, für sozialwissenschaftliche Quellen werden diese mittels einer kommerziellen probabilistischen Volltextdatenbank simuliert. Über Wort-Konkordanzen lassen sich Transferbeziehungen zwischen den einzelnen Freitext-Termen und den Deskriptoren eines Sacherschließungssystems wie dem Thesaurus Sozialwissenschaften oder der Schlagwortnormdatei ableiten.

Projektpartner:

Projektlaufzeit: Dezember 1999 - Dezember 2001

Finanzierung: BMBF

Veröffentlichungen:

  • Strötgen, Robert (2002): Behandlung semantischer Heterogenität durch Metadatenextraktion und Anfragetransfer. S. 259-271. In: Womser-Hacker, Christa; Wolff, Christian; Hammwöhner, Rainer (Hrsg.): Information und Mobilität. Optimierung und Vermeidung von Mobilität durch Information; Proceedings des 8. Internationalen Symposiums für Informationswissenschaft (ISI 2002). Konstanz: UVK. (Schriften zur Informationswissenschaft, Band 40)
  • Strötgen, Robert (2002): Meta-Data Extraction and Query Translation. Treatment of Semantic Heterogeneity. S. 362-373. In: Agosti, Maristella; Thanos, Costantino (Hrsg.): Research and Advanced Technology for Digital Libraries: 6th European Conference, ECDL 2002, Rome, Italy, September 16-18, 2002; Proceedings. Berlin: Springer. (Lecture Notes in Computer Science; 2458)
  • Binder, Gisbert; Marx, Jutta; Mutschke, Peter; Riege, Udo; Strötgen, Robert; Kokkelink, Stefan; Plümer, Judith (2002): Heterogenitätsbehandlung bei textueller Information verschiedener Datentypen und Inhaltserschließungsverfahren. Bonn: IZ Sozialwissenschaften. 71 S. (IZ-Arbeitsbericht; Nr. 24)
  • Hellweg, Heiko; Krause, Jürgen; Mandl, Thomas; Marx, Jutta; Müller, Matthias N.O.; Mutschke, Peter; Strötgen, Robert (2001): Treatment of Semantic Heterogeneity in Information Retrieval. Bonn: IZ Sozialwissenschaften. 47 S. (IZ-Arbeitsbericht; Nr. 23)
  • Strötgen, Robert; Kokkelink, Stefan: Metadatenextraktion aus Internetquellen: Heterogenitätsbehandlung im Projekt CARMEN. In: Schmidt, Ralph (Hrsg.): Information Research & Content Management: Orientierung, Ordnung und Organisation im Wissensmarkt; 23. Online-Tagung der DGI und 53. Jahrestagung der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis e.V., DGI, Frankfurt am Main, 8. bis 10. Mai 2001; Proceedings. Frankfurt am Main: DGI 2001. (Tagungen der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis; 4), S. 56-66.
  • Krause, Jürgen; Schwänzl, Roland; Plümer, Judith (2000): Content Analysis, Retrieval and Metadata: effective Networking for Mathematics, Physics and Social Sciences. In: Blasius, Jörg; Hox, Joop; Leeuw, Edith de; Schmidt, Peter (Hrsg.): Social Science Methodology in the New Millennium: Proceedings of the Fifth International Conference on Logic and Methodology, Cologne, October 3-6, 2000. CD-ROM. Amsterdam: TT-Publikaties.
  • Krause, Jürgen (2000): Integration von Ansätzen neuronaler Netzwerke in die Systemarchitektur von ViBSoz und CARMEN. Bonn: IZ Sozialwissenschaften. 26 S. (IZ-Arbeitsbericht; Nr. 21)
  • Krause, Jürgen: Virtual Libraries, Library Content Analysis, Metatdata and the Remaining Heterogenity. In: ICADL 2000 - Challenging to Knowledge Exploring for New Millenium-: The Proceedings of the 3rd International Conference of Asian Digital Library & the 3rd Conference on Digital Libraries, Korea; December 6-8, 2000; Seoul Education & Culture Center, Seoul, Korea. Seoul: ICADL 2000. pp. 209-214.
  • Krause, Jürgen; Marx, Jutta: Vocabulary Switching and Automatic Metadata Extraction or How to Get Useful Information from a Digital Library. In: Information Seeking, Searching and Querying in Digital Libraries. Proceedings of the First DELOS Network of Excellence Workshop. Zurich, Switzerland, December 11-12, 2000. Zurich 2000. pp. 133-134.

Mehr Informationen unter: http://www.bonn.iz-soz.de/research/information/carmen/ap11/

© GESIS Stefan Bärisch 05.12.2007