|
 |
Content
Analysis, Retrieval and MetaData: Effective Networking (CARMEN)
Arbeitspaket
11: Heterogenitätsbehandlung bei textueller Information verschiedener
Datentypen und Inhaltserschließungsverfahren
Bearbeitung: Robert Strötgen,
Peter Mutschke, Dr. Jutta Marx
Leitung: Dr.
Jutta Marx
Kontakt: Dr.
Maximilian Stempfhuber
Projektbeschreibung:
Die Sonderfördermaßnahme CARMEN zielt darauf ab, in der heutigen
dezentralen Informationswelt geeignete Informationssysteme für die
verteilten Datenbestände in Bibliotheken, Fachinformationszentren und im
Internet zu schaffen. Diese Zusammenführung ist weniger technisch als
inhaltlich und konzeptuell problematisch. Heterogenität tritt
beispielsweise auf, wenn unterschiedliche Datenbestände verschiedene
Thesauri oder Klassifikationen benutzen, wenn Metadaten unterschiedlich
oder überhaupt nicht erfasst werden oder wenn intellektuell
aufgearbeitete Quellen mit in der Regel vollständig unerschlossenen
Internetdokumenten zusammentreffen. Das Ziel ist eine (semantische)
Verbesserung der Ausweitung von Recherchen in Fachdatenbanken zu
Internet-Recherchen und umgekehrt.
Das Erzeugen fehlender Metadaten aus den Dokumenten stellt in diesem
Arbeitspaket einen Ansatz zur Verbesserung des Retrieval dar. Über
deduktiv-heuristische Verfahren werden Metadaten (Titel, Autor,
Institution, Keywords und Abstract) automatisch aus Dokumenten generiert.
Durch eine genaue Analyse der in exemplarischen Dokumenten vorgefundenen
Heterogenität wurden Heuristiken zum Auffinden fehlender Metadaten
erstellt.
Mit statistisch-quantitativen Methoden lassen sich in einem zweiten Ansatz
die unterschiedlichen Verwendungen von Termen in den verschiedenen
Beständen aufeinander abbilden. Für mathematische Dokumente liegen
teilweise Doppelkorpora vor, für sozialwissenschaftliche Quellen werden
diese mittels einer kommerziellen probabilistischen Volltextdatenbank
simuliert. Über Wort-Konkordanzen lassen sich Transferbeziehungen zwischen
den einzelnen Freitext-Termen und den Deskriptoren eines
Sacherschließungssystems wie dem Thesaurus Sozialwissenschaften oder der
Schlagwortnormdatei ableiten.
Projektpartner:
Projektlaufzeit: Dezember 1999 -
Dezember 2001
Finanzierung: BMBF
Veröffentlichungen:
- Strötgen, Robert (2002): Behandlung semantischer Heterogenität
durch Metadatenextraktion und Anfragetransfer. S. 259-271. In:
Womser-Hacker, Christa; Wolff, Christian; Hammwöhner, Rainer (Hrsg.):
Information und Mobilität. Optimierung und Vermeidung von Mobilität
durch Information; Proceedings des 8. Internationalen Symposiums für
Informationswissenschaft (ISI 2002). Konstanz: UVK. (Schriften zur
Informationswissenschaft, Band 40)
- Strötgen, Robert (2002): Meta-Data Extraction and Query
Translation. Treatment of Semantic Heterogeneity. S. 362-373. In:
Agosti, Maristella; Thanos, Costantino (Hrsg.): Research and Advanced
Technology for Digital Libraries: 6th European Conference, ECDL 2002,
Rome, Italy, September 16-18, 2002; Proceedings. Berlin: Springer.
(Lecture Notes in Computer Science; 2458)
- Binder, Gisbert; Marx, Jutta; Mutschke, Peter; Riege, Udo; Strötgen,
Robert; Kokkelink, Stefan; Plümer, Judith (2002):
Heterogenitätsbehandlung bei textueller Information verschiedener
Datentypen und Inhaltserschließungsverfahren. Bonn: IZ
Sozialwissenschaften. 71 S. (IZ-Arbeitsbericht;
Nr. 24)
- Hellweg, Heiko; Krause, Jürgen; Mandl, Thomas; Marx, Jutta; Müller, Matthias N.O.; Mutschke, Peter; Strötgen, Robert (2001): Treatment of Semantic Heterogeneity in Information Retrieval. Bonn: IZ Sozialwissenschaften. 47 S.
(IZ-Arbeitsbericht; Nr.
23)
- Strötgen, Robert; Kokkelink, Stefan: Metadatenextraktion aus
Internetquellen: Heterogenitätsbehandlung im Projekt CARMEN. In:
Schmidt, Ralph (Hrsg.): Information Research & Content Management:
Orientierung, Ordnung und Organisation im Wissensmarkt; 23.
Online-Tagung der DGI und 53. Jahrestagung der Deutschen Gesellschaft
für Informationswissenschaft und Informationspraxis e.V., DGI,
Frankfurt am Main, 8. bis 10. Mai 2001; Proceedings. Frankfurt am
Main: DGI 2001. (Tagungen der Deutschen Gesellschaft für
Informationswissenschaft und Informationspraxis; 4), S. 56-66.
- Krause, Jürgen; Schwänzl, Roland; Plümer, Judith (2000): Content Analysis, Retrieval and Metadata: effective Networking for Mathematics, Physics and Social Sciences. In: Blasius, Jörg; Hox, Joop; Leeuw, Edith de; Schmidt, Peter (Hrsg.): Social Science Methodology in the New Millennium: Proceedings of the Fifth International Conference on Logic and Methodology, Cologne, October 3-6, 2000. CD-ROM. Amsterdam: TT-Publikaties.
- Krause, Jürgen (2000): Integration von Ansätzen neuronaler Netzwerke in die Systemarchitektur von ViBSoz und CARMEN. Bonn: IZ Sozialwissenschaften. 26 S.
(IZ-Arbeitsbericht; Nr.
21)
- Krause, Jürgen: Virtual Libraries, Library Content Analysis,
Metatdata and the Remaining Heterogenity. In: ICADL 2000 - Challenging
to Knowledge Exploring for New Millenium-: The Proceedings of the 3rd
International Conference of Asian Digital Library & the 3rd
Conference on Digital Libraries, Korea; December 6-8, 2000; Seoul
Education & Culture Center, Seoul, Korea. Seoul: ICADL 2000. pp.
209-214.
- Krause, Jürgen; Marx, Jutta: Vocabulary Switching and Automatic
Metadata Extraction or How to Get Useful Information from a Digital
Library. In: Information Seeking, Searching and Querying in Digital
Libraries. Proceedings of the First DELOS Network of Excellence
Workshop. Zurich, Switzerland, December 11-12, 2000. Zurich 2000. pp.
133-134.
Mehr Informationen unter: http://www.bonn.iz-soz.de/research/information/carmen/ap11/
© GESIS Stefan Bärisch
05.12.2007
|