Kompetenzzentrum Modellbildung und Heterogenitätsbehandlung (KoMoHe)

Bearbeitung: Anne-Katrin Walter, Philipp Mayr, Vivien Petras, Stefan Baerisch
Leitung: Prof. Dr. Jürgen Krause, Dr. Maximilian Stempfhuber, Dr. Vivien Petras
Wissenschaftlicher Arbeitsbereich: Informationswissenschaftliche Forschung und Entwicklung

Projektbeschreibung

Im Rahmen der vom Bundesministerium für Bildung und Forschung (BMBF) geförderten „Kompetenznetzwerke Neue Dienste, Standardisierung, Metadaten“ wurde bei GESIS das Teilprojekt „Modellbildung und Heterogenitätsbehandlung“ durchgeführt.

BMBF und Deutsche Forschungsgemeinschaft DFG haben sich für die Schaffung eines generellen Wissenschaftsportals und von damit vernetzten Fachportalen entschieden, wobei die Projektförderlinien der DFG zu den Virtuellen Fachbibliotheken und die des BMBF zu den Informationsverbünden zusammengeführt werden sollen. Für den Gesamtkontext wurde der Name vascoda gewählt. Er besteht aus einem zentralen Einstieg, dem Wissenschaftsportal vascoda, das zu Fachportalen und Fachclustern weiterleitet.

Die Konsequenz sind hochkomplexe Strukturen und Anforderungen bei der Integration der für vascoda relevanten Informationsangebote, sowohl auf inhaltlicher als auch auf organisatorisch-technischer Ebene. Die Strukturen gehen weit über die hinaus, die in den virtuellen Fachbibliotheken und Informationsverbünden selbst behandelt wurden, so dass die vorgefertigten Lösungsmodelle nicht mehr greifen. Gleichzeitig stellen sich neue konzeptuelle Fragen der Integration bisher unverbunden entwickelter Module.

Die Klärung dieser Fragen soll durch das Teilprojekt „Modellbildung und Heterogenitätsbehandlung“ unterstützt werden, das folgende Problemstellungen abdeckt:

  • Übergreifende Modellbildung zum Wissenschaftsportal vascoda mit allen nachgeschalteten Ebenen (Cluster, Fachportale). 
  • Fragen zur Heterogenitätsbehandlung als notwendige Ergänzung zur Standardisierung durch einheitliche Metadaten.

Obige Fragestellungen gehen weit über die sich bisher mit vascoda abzeichnenden Grenzen hinaus. Sie treten bei allen Vorhaben auf, die integrative Angebote für verteilte Informationen mit verschiedenen Daten- und Dokumententypen und unterschiedlichen Metadatenansätzen anstreben (z. B. Überlegungen zu vernetzten virtuellen Campusangeboten der Hochschulen (local info, e-science). Deshalb sollen die Lösungen zwar anhand von vascoda entwickelt, aber auch außerhalb dieses Kontextes einsetzbar sein.

Im Projekt KoMoHe wurden folgende kontrollierte Vokabulare über Crosskonkordanzen verbunden:

  1. AGROVOC Thesaurus (AGROVOC)
  2. CSA Thesaurus Applied Social Sciences Index and Abstracts (CSA-ASSIA)
  3. CSA Thesaurus of Political Science Indexing Terms (CSA-WPSA)
  4. CSA Thesaurus PAIS International Subject Headings (CSA-PAIS)
  5. CSA Thesaurus Physical Education Index (CSA-PEI)
  6. Deskriptoren der Friedrich-Ebert-Stiftung (FES)
  7. Deskriptoren des Bundesinstituts für Sportwissenschaft (BISp)
  8. Deskriptoren des Institute of Scientific Information on Social Sciences of the Russian Academy of Sciences (INION)
  9. Deskriptoren des Instituts für Arbeitsmarkt- und Berufsforschung (IAB)
  10. Dewey Decimal Classification (DDC)
  11. European Language Social Science Thesaurus (ELSST)
  12. INFODATA Thesaurus (INFODATA)
  13. Journal of Economic Literature Classification System (JEL)
  14. Medical Subject Headings (MeSH)
  15. Psyndex Terms (Psyndex)
  16. Regensburger Verbundklassifikation (RVK)
  17. Schlagwortnormdatei (SWD)
  18. Standard Thesaurus Wirtschaft (STW)
  19. Thesaurus Bildung (Bildung)
  20. Thesaurus des Deutschen Instituts für soziale Fragen (DZI)
  21. Thesaurus des Deutschen Zentrums für Altersfragen (GEROLIT)
  22. Thesaurus für wirtschaftliche und soziale Entwicklung (TWSE)
  23. Thesaurus Internationale Beziehungen und Länderkunde (Euro-Thesaurus) (IBLK)
  24. Thesaurus of Sociological Indexing Terms (CSA-SA)
  25. Thesaurus Sozialwissenschaften (TheSoz)

Im Projekt KoMoHe wurden folgende Crosskonkordanzen bilateral bzw. unilateral verbunden:

  Vokabular Vokabular Type Jahr oder Projekt
1 TheSoz STW bilateral 2004
2 TheSoz BISp bilateral 2004
3 Psyndex BISp bilateral 2004
4 BISp Bildung   2004
5 TheSoz DZI bilateral 2005
6 TheSoz FES bilateral 2005
7 TheSoz IBLK bilateral 2005
8 TheSoz Gerolit bilateral 2005
9 MeSH BISp bilateral 2005
10 STW IBLK bilateral 2005
11 TheSoz CSA-WPSA bilateral 2006
12 TheSoz CSA-ASSIA bilateral 2006
13 TheSoz ELSST bilateral 2006
14 TheSoz CSA-PEI bilateral 2006
15 MeSH Psyndex bilateral 2006
16 MeSH Gerolit bilateral 2006
17 IBLK CSA-PAIS bilateral 2006
18 IBLK TWSE bilateral 2006
19 INION TheSoz   2007
20 INFODATA SWD bilateral 2007
21 INFODATA TheSoz bilateral 2007
22 IAB TheSoz bilateral 2007
23 IAB STW bilateral 2007
24 SWD MeSH bilateral 2007
25 SWD AGROVOC bilateral 2007
26 JEL STW   2007
27 RVK DDC   2007
28 TheSoz CSA-SA bilateral Infoconnex
29 TheSoz Psyndex bilateral Infoconnex
30 TheSoz Bildung bilateral Infoconnex
31 TheSoz SWD bilateral CARMEN; Infoconnex
32 Psyndex SWD   Infoconnex
33 Psyndex Bildung bilateral Infoconnex
34 Bildung SWD   Infoconnex
35 STW SWD bilateral CARMEN

Ergebnisse der Crosskonkordanz-Erstellung:

sv=start vocabulary; ev=end vocabulary; rel=relations (total); eq=equivalence relations; bt=broader term relations; nt=narrower term relations; rt=related term relations; null=no relation; st=start terms; et=end terms; comb=combination of terms.

sv ev rel  eq bt nt rt null st et comb
Agrovoc SWD 6254 5500 100 314 337 3 6119 6062 3
Bildung TheSoz 3756 3621 3 45 85 2 3638 3719 8
Bildung Psyndex Terms 4168 1972 990 376 825 5 3429 2265 25
Bildung SWD 29592 27196 258 96 342 1700 29461 25072 2041
BISp TheSoz 7566 1978 1118 46 316 4108 7428 1744 920
BISp Bildung 7793 4417 1878 103 233 1162 7429 4098 1389
BISp Psyndex Terms 7624 1598 2890 181 471 2484 7429 1728 1382
BISp MeSH 15055 2673 2151 7068 1005 2158 7416 7925 939
CSA-ASSIA TheSoz 18105 6037 5648 287 1878 4255 17502 3860 3954
CSA-PAIS IBLK 9069 2472 2401 1022 396 2778 7486 3573 138
CSA-PEI TheSoz 1897 685 600 82 103 427 1808 696 343
CSA-SA TheSoz 4516 2728 815 201 432 340 4375 2554 635
CSA-WPSA TheSoz 6142 2657 443 1270 1664 108 3157 4848 224
DZA TheSoz 2159 1554 272 116 160 57 1965 1410 396
DZA MeSH 2436 1486 517 18 270 145 1915 1120 246
DZI TheSoz 2023 1687 133 16 152 35 1938 1502 447
ELSST TheSoz 3345 2207 678 103 220 137 3209 2324 214
FES TheSoz 4919 3106 1512 138 136 27 4060 1878 2342
IAB TheSoz 10455 4928 2489 499 2523 16 6853 4952 1220
IAB STW 10445 4368 2389 922 2470 293 6853 3468 1626
IBLK TheSoz 9156 4712 1952 61 859 1572 8452 3444 2036
IBLK STW 13483 4274 3304 2973 1529 1403 8608 5245 1176
IBLK TWSE 8658 2557 2918 493 2335 355 8222 2758 298
IBLK CSA-PAIS 9973 3412 1850 1046 804 2861 8414 3881 1041
Infodata TheSoz 1280 635 196 44 292 113 1014 728 229
Infodata SWD 1411 1244 26 2 129 10 1015 1191 51
Inion TheSoz 14322 5435 4093 536 3999 258 10174 3495 3391
MeSH Psyndex Terms 7778 2396 750 2193 2439   3653 5063  
MeSH BISp 12444 3311 4393 3437 1303   7569 5111 2700
MeSH DZA 6132 1302 896 1801 2133   1935 1775  
MeSH SWD 10565 4328 161 4493 1583   5820 8003  
Psyndex Terms TheSoz 5608 988 1465 37 1973 1145 5505 1615 228
Psyndex Terms Bildung 5306 2228 1072 18 1677 311 5262 3021 73
Psyndex Terms MeSH 8132 2420 2666 660 2379 7 5488 3573 710
Psyndex Terms BISp 5467 1446 1842 60 1446 673 5434 1617 522
Psyndex Terms SWD 5328 2625 695 85 1797 126 5260 3679 234
STW TheSoz 6648 4106 1500 115 427 500 5734 2928 1853
STW IBLK 6192 3229 1480 40 688 754 5729 2896 630
STW IAB 10275 5023 1740 1467 1755 290 5734 4548 2849
SWD TheSoz 9475 6276 1831 134 640 594 8890 5556 1821
SWD MeSH 9432 4692 3734 161 770 74 8076 5743 682
SWD Infodata 1380 1211 4 30 134 1 1190 974 1
SWD Agrovoc 11189 6462 3202 145 1188 192 10254 6171 3016
TheSoz Bildung 4557 3869 210 46 139 293 4469 3825 165
TheSoz Psyndex Terms 8596 1281 1084 1048 1629 3554 7558 2372 750
TheSoz DZI 8133 2846 1738 205 2096 1248 7560 1530 2574
TheSoz CSA-SA 7450 3175 2595 93 1113 474 7397 2559 1645
TheSoz BISp 8495 2207 2653 592 1161 1881 7563 2031 1386
TheSoz STW 7729 2977 1525 136 767 2324 7571 2563 136
TheSoz IBLK 10779 4210 1262 2562 1044 1689 7739 6146 640
TheSoz FES 9534 2141 3033 1459 1117 1784 7743 3666 137
TheSoz DZA 7905 1981 1970 314 506 3134 7600 1428 1050
TheSoz SWD 8208 7098 295 292 356 160 7662 6838 551
TheSoz CSA-WPSA 8139 3010 1493 132 1692 1812 7752 2306 788
TheSoz CSA-PEI 7864 733 1562 183 329 5057 7744 596 437
TheSoz CSA-ASSIA 8114 4153 2462 207 744 548 7741 3803 1637
TheSoz ELSST 7964 2396 2228 447 895 1998 7743 2036 938
TheSoz Infodata 1171 622 88 117 313 31 835 746 78
TheSoz IAB 9841 4154 1562 711 3260 154 7751 4225 667
TWSE IBLK 2847 2270 330 57 146 44 2833 2394 35

Zusammenfassung:

Im Teilprojekt "Modellbildung und Heterogenitätsbehandlung" im Kompetenznetzwerk "Neue Dienste, Standardisierung, Metadaten" konnten folgende Arbeitspakete folgende Arbeitspakete erfolgreich bearbeitet werden:

  • Teilbereich A: Formulierung von Maßnahmen zur Modellbildung und Behandlung der Heterogenität in Digitalen Bibliotheken

Der Teilbereich A Modellbildung konnte zum einen wichtige generelle Fragen zur Verbesserung der Recherche und für die laufende Weiterentwicklung des Wissenschaftsportals vascoda beantworten. Folgende Themen konnten erfolgreich als Empfehlungen für die Modellbildung eingebracht werden: a) die Beibehaltung der Fächerorientierung für den Benutzer von generellen akademischen Suchsystemen, b) Fragen zur Suchtypologie in verteilten Datenbanken wie z. B. die Verwendung von exact match- und best match-Verfahren, c) Gewichtungsvorschläge unterschiedlicher Ranking-Profile für die FAST-Suchmaschine von vascoda unter Berücksichtigung der dort indexierten Dokumenttypen, d) Anschluss an die Standardisierungsbemühungen des Semantic Web, e) konzeptuelle Einbindungen von erweiterten Verfahren der Heterogenitätsbehandlung in Form von Mehrwertdiensten in Digitalen Bibliotheken, f) Test und Bewertung der Google-Scholar Suchmaschine als direkter Konkurrenz von vascoda.

  • Teilbereich B: Erarbeitung von Crosskonkordanzen als zentrales Instrument der Heterogenitätsbehandlung in heterogen erschlossenen Dokumentkollektionen

Ziel im Teilbereich B Heterogenitätsbehandlung war die Umsetzung von informationstechnologischen Modulen der Heterogenitätsbehandlung zur Verbesserung der Suche. Fokussiert wurde dabei auf die intellektuelle Erstellung von Crosskonkordanzen zwischen kontrollierten Vokabularen. Ziel war es, ein umfangreiches Netz an Crosskonkordanzen für Datenbanken im deutschsprachigen Raum zu erarbeiten und im Rahmen von vascoda zugänglich zu machen. Des Weiteren sollten wichtige internationale kontrollierte Vokabulare in das Netz der Crosskonkordanzen integriert werden. Insgesamt sind 29 bilaterale und 6 unidirektionale Crosskonkordanzen (bzw. 64 Crosswalks) innerhalb des Projekts und der Vorgängerprojekte (infoconnex und CARMEN) entstanden. Bis Dezember 2007 konnten über 513.000 Crosskonkordanz-Relationen zwischen 25 kontrollierten Vokabularen erstellt und in eine Datenbank bei GESIS importiert werden. Ein Web Service (Heterogenitätsservice), der die Crosskonkordanzen bzw. Term-Verbindungen sowohl für andere Informationsdienste als auch für Benutzer bereitstellt, wurde in Teilbereich B erfolgreich implementiert. Der Heterogenitätsservice wird in den Fachportalen sowiport und „Internationale Beziehungen und Länderkunde“ zur Term-Behandlung eingesetzt (siehe Präsentation (2.3 MB)).

  • Teilbereich C: Evaluation der Auswirkungen der Crosskonkordanzen in einem Information Retrieval-Test

Ziel im abschließenden Teilbereich C war die Evaluation von 15 ausgewählten Crosskonkordanzen in einem Information Retrieval-Test mit Relevanzbewertung der gefundenen Dokumente. Das Ziel der Information Retrieval-Evaluation war die Analyse der Effektivität der Crosskonkordanzen in einer wirklichen Suchumgebung. Anhand von realen Nutzeranfragen wurde der Mehrwert der Termtransformationen in der Anfrageerweiterung in der Suche untersucht. Die Ergebnisse zeigen, das der Recall durch Einsatz der Crosskonkordanzen (innerdisziplinär und interdisziplinär) deutlich verbessert wird. Sowohl für inner- als auch interdisziplinäre Crosskonkordanzen konnte eine erhebliche Verbesserung der Suchsituation nachgewiesen werden. Die Ergebnismenge im Test wird durch den Einsatz von Crosskonkordanzen nicht nur größer, sondern i. d. R. auch präziser (gemessen in Recall und Precision). Die Datenhaltung der Crosskonkordanzen in einer relationalen Datenbank wird bei GESIS auch nach Projektende sichergestellt und aufrechterhalten. Die im Projekt erstellten Crosskonkordanzen sind für akademische Zwecke frei verfügbar. Die Crosskonkordanz-Daten werden per Lizenzvertrag an externe Partner abgegeben und können in diesem Rahmen nachgenutzt werden. Es wird zwischen den Projektpartnern angestrebt, Aktualisierungen an den kontrollierten Vokabularen gegenseitig zu kommunizieren und geeignete Update-Zyklen durchzuführen.

Projektlaufzeit

September 2004 - August 2007

Gefördert durch

Publikationen

[2008]

Lauser, Boris; Johannsen, Gudrun; Caracciolo, Caterina; Keizer, Johannes; Hage, Willem Robert van; Mayr, Philipp (2008): Comparing human and automatic thesaurus mapping approaches in the agricultural domain. pp. 43-53. In: Greenberg, Jane; Klas, Wolfgang (eds.): Metadata for semantic and social applications: Proceedings of the 8. International conference on Dublin Core and Metadata Applications. Berlin: Uni.-Verl. Göttingen. URL: edoc.hu-berlin.de/conferences/dc-2008/lauser-boris-43/PDF/lauser.pdf

Mayr, Philipp (2008): An evaluation of Bradfordizing effects. In: Kretschmer, H.; Havemann, F. (eds.): Proceedings of WIS 2008, Berlin, Fourth International Conference on Webometrics, Informetrics and Scientometrics & Ninth COLLNET Meeting. Humboldt-Universität zu Berlin URL: www.collnet.de/Berlin-2008/MayrWIS2008ebe.pdf

Mayr, Philipp; Mutschke, Peter; Petras, Vivien (2008): Reducing semantic complexity in distributed digital libraries: Treatment of term vagueness and document re-ranking. In: Library Review 57, No. 3, pp. 213-224. URL: www.ib.hu-berlin.de/~mayr/arbeiten/mayr-etal_LR08.pdf

Mayr, Philipp; Petras, Vivien (2008a): Building a terminology network for search: the KoMoHe project. pp. 177-182. In: Greenberg, Jane; Klas, Wolfgang (eds.): Metadata for semantic and social applications: Proceedings of the 8. International conference on Dublin Core and Metadata Applications. Berlin: Uni.-Verl. Göttingen. URL: edoc.hu-berlin.de/conferences/dc-2008/mayr-philipp-177/PDF/mayr.pdf

Mayr, Philipp; Petras, Vivien (2008b): Cross-concordances: terminology mapping and its effectiveness for information retrieval. In: 74th IFLA World Library and Information Congress. Québec, Canada URL: www.ifla.org/IV/ifla74/papers/129-Mayr_Petras-en.pdf

Mayr, Philipp; Umstätter, Walther (2008): Eine bibliometrische Zeitschriftenanalyse zu JoI, Scientometrics und NfD bzw. IWP. In: Information - Wissenschaft & Praxis 59, No. 6-7, pp. 353-360. URL: www.ib.hu-berlin.de/~mayr/arbeiten/IWP08.pdf

Mayr, Philipp; Walter, Anne-Kathrin (2008): Mapping Knowledge Organization Systems. In: Ohly, Peter (ed.): Fortschritte in der Wissensorganisation Band 10 (Advances in Knowledge Organization 10 - Supplement): Ergon Verlag.

[2007]

Mayr, Philipp; Walter, Anne-Kathrin (2007): An exploratory study of Google Scholar. In: Online Information Review 31, No. 6

Mayr, Philipp; Walter, Anne-Kathrin (2007): Zum Stand der Heterogenitätsbehandlung in vascoda: Bestandsaufnahme und Ausblick. In: (BID), Bibliothek & Information Deutschland (ed.): Information und Ethik 3. Leipziger Kongress für Information und Bibliothek, 19. - 22. März 2007. Leipzig: Verlag Dinges & Frick.

Mayr, Philipp; Walter, Anne-Kathrin (2007): Einsatzmöglichkeiten von Crosskonkordanzen. pp. 149-166. In: Stempfhuber, Maximilian (ed.): Lokal - Global: Vernetzung wissenschaftlicher Infrastrukturen: 12. Kongress der IuK-Initiative der Wissenschaftlichen Fachgesellschaft in Deutschland. Bonn: GESIS - IZ Sozialwissenschaften. (Tagungsberichte) URL: http://www.gesis.org/Information/Forschungsuebersichten/Tagungsberichte/Vernetzung/Mayr-Walter.pdf

Mayr, Philipp; Umstätter, Walther (2007): Why is a new Journal of Informetrics needed? In: Cybermetrics 11, No. 1. URL: http://www.cindoc.csic.es/cybermetrics/articles/v11i1p1.html

[2006]

Krause, Jürgen; Mayr, Philipp (2006): Allgemeiner Bibliothekszugang und Varianten der Suchtypologie - Konsequenzen für die Modellbildung in vascoda. Bonn: Informationszentrum Sozialwissenschaften. 52 p. (IZ-Arbeitsbericht Nr. 38) URL: http://www.gesis.org/Publikationen/Berichte/IZ_Arbeitsberichte/pdf/ab_38.pdf

Lewandowski, Dirk; Mayr, Philipp (2006): Exploring the academic invisible web. In: Library Hi Tech 24, No. 4, pp. 529-539. URL: http://www.ib.hu-berlin.de/~mayr/arbeiten/lewandowski-mayr_LHT06.pdf

Mayr, Philipp (2006a): Informationsangebote für das Wissenschaftsportal vascoda - eine Bestandsaufnahme. Bonn: Informationszentrum Sozialwissenschaften. 67 p. (IZ-Arbeitsbericht Nr. 37) URL: http://www.gesis.org/Publikationen/Berichte/IZ_Arbeitsberichte/pdf/ab_37.pdf

Mayr, Philipp (2006b): Thesauri, Klassifikationen & Co – die Renaissance der kontrollierten Vokabulare? pp. 151-170. In: Hauke, Petra; Umlauf, Konrad (eds.): Vom Wandel der Wissensorganisation im Informationszeitalter. Festschrift für Walther Umstätter zum 65. Geburtstag. Bad Honnef: Bock + Herchen Verlag. (Beiträge zur Bibliotheks- und Informationswissenschaft: Band 1) URL: http://edoc.hu-berlin.de/miscellanies/vom-27533/151/PDF/151.pdf
  
Mayr, Philipp; Walter, Anne-Kathrin (2006a): Abdeckung und Aktualität des Suchdienstes Google Scholar. In: Information - Wissenschaft & Praxis 57, No. 3, pp. 133-140. URL: http://www.gesis.org/Forschung/Informationstechnologie/Dateien/Mayr_Walter_IWP06.pdf

Mayr, Philipp; Walter, Anne-Kathrin (2006b): Google Scholar - Wie tief gräbt diese Suchmaschine? pp. 241-262. In: Stempfhuber, Maximilian (ed.): In die Zukunft publizieren. Herausforderungen an das Publizieren und die Informationsversorgung in den Wissenschaften. Bonn: Informationszentrum Sozialwissenschaften. URL: http://www.gesis.org/information/forschungsuebersichten/tagungsberichte/publizieren/iuk_tagungsband_11_mayr.pdf

Walter, Anne-Kathrin; Mayr, Philipp; Stempfhuber, Maximilian; Ballay, Arne (2006): Crosskonkordanzen als Mittel zur Heterogenitätsbehandlung in Informationssystemen. pp. 205-225. In: Stempfhuber, Maximilian (ed.): In die Zukunft publizieren - 11. IuK-Jahrestagung. Bonn: IZ Sozialwissenschaften. URL: http://www.gesis.org/information/forschungsuebersichten/tagungsberichte/publizieren/iuk_tagungsband_11_walter.pdf

[2005]

Mayr, Philipp; Stempfhuber, Maximilian; Walter, Anne-Kathrin (2005): Auf dem Weg zum wissenschaftlichen Fachportal – Modellbildung und Integration heterogener Informationssammlungen. pp. 29-43. In: Ockenfeld, Marlies (ed.): 27. DGI-Online-Tagung. Frankfurt am Main: DGI. URL: http://www.gesis.org/Forschung/Informationstechnologie/Dateien/Mayr_Etal_dgi05.pdf

Mayr, Philipp; Tosques, Fabio (2005a): Webometrische Analysen mit Hilfe der Google Web APIs. In: Information - Wissenschaft & Praxis 56, No. 1, pp. 41-48. URL: http://www.ib.hu-berlin.de/~mayr/arbeiten/Mayr_Tosques_IWP05.pdf

Mayr, Philipp; Tosques, Fabio (2005b): Google Web APIs - An Instrument for Webometric Analyses? pp. 677-678. In: Ingwersen, Peter; Larsen, Birger (eds.): 10th International Conference of the International Society for Scientometrics and Informetrics. Stockholm (Sweden) URL: http://www.ib.hu-berlin.de/~mayr/arbeiten/ISSI2005_Mayr_Toques.pdf