WTS Research Labs

Willkommen auf der Labs-Page der Abteilung Wissenstechnologien für die Sozialwissenschaften (WTS) von GESIS. WTS betreibt Forschung in der Angewandten Informatik, insbesondere in den Bereichen Information Retrieval, Information Extraction & NLP, Semantische Technologien und Human Computer Interaction, um digitale Dienste und Forschungsdateninfrastrukturen für die Sozialwissenschaften zu innovieren. Hier finden Sie nachnutzbare Ergebnisse unserer jüngsten Forschungs- und Entwicklungsprojekte, wie z.B:

Gerne können Sie Kontakt mit uns dazu aufnehmen.

Forschungsdatensätze

Sowiport User Search Sessions Data Set (SUSS)

Beschreibung

Dieser Datensatz enthält einzelne Suchsitzungen aus dem Transaktionslog der akademischen Suchmaschine sowiport (www.sowiport.de). Die Daten wurden über einen Zeitraum von einem Jahr (zwischen dem 2. April 2014 und dem 2. April 2015) gesammelt. Die Webserver-Protokolldateien und bestimmte auf Javascript basierende Protokollierungstechniken wurden verwendet, um das Nutzungsverhalten innerhalb des Systems zu erfassen. Alle Aktivitäten sind einer Liste von 58 Aktionen zugeordnet. Diese Liste umfasst alle Arten von Aktivitäten und Seiten, die innerhalb des Systems ausgeführt / besucht werden können (z. B. Eingabe einer Abfrage, Besuch eines Dokuments, Auswahl einer Facette usw.). Für jede Aktion werden eine Sitzungs-ID, der Datumsstempel und zusätzliche Informationen (z. B. Abfragen, Dokument-IDs und Ergebnislisten) gespeichert. Die Sitzungs-ID wird über ein Browser-Cookie zugewiesen und ermöglicht die Verfolgung des Benutzerverhaltens über mehrere Suchvorgänge hinweg. Der Datensatz enthält 558.008 einzelne Suchsitzungen und insgesamt 7.982.427 Protokolleinträge. Die durchschnittliche Anzahl von Aktionen pro Suchsitzung beträgt 7.
 Der Datensatz 'SUSS-16-17' ist eine Weiterentwicklung des SUSS-Datensatzes (Sowiport User Search Sessions Data Set).

Link to source code (GitLab)

https://git.gesis.org/amur/SUSS-16-17

Download link / Web Access

http://dx.doi.org/10.7802/1380

Publikationen

  • Kacem, A., & Mayr, P. (2018). Analysis of Search Stratagem Utilisation. Scientometrics, 116(2), 1383–1400. doi.org/10.1007/s11192-018-2821-8
  • Hienert, D., Sawitzki, F., & Mayr, P. (2015). Digital Library Research in Action – Supporting Information Retrieval in Sowiport. D-Lib Magazine, 21(3/4). doi.org/10.1045/march2015-hienert

Team

 NameE-MailTelefon
 Dr. Philipp Mayr E-Mail+49 (221) 47694-533

 

German Bundestag Elections 2013: Twitter usage by electoral candidates

Beschreibung

Die Daten sind das Ergebnis eines Forschungsprojekts bei GESIS, das sich mit Social Media-Kommunikation im Zusammenhang mit der Bundestagswahl am 22. September 2013 befasste. Die Daten umfassen Tweets von Kandidaten und eine Datei mit den wichtigsten Attributen der Kandidaten und Listen ihrer Twitter- und Facebook-Konten. Tweets wurden für Kandidaten aller betroffenen Parteien mit Ausnahme der AfD gesammelt. Alle Daten waren zum Zeitpunkt der Datenerhebung öffentlich verfügbar. Fälle, in denen ein Twitter- oder Facebook-Konto nicht als Teil der Rolle als Kandidat verwendet wurde (d. H. Private Konten und Konten, die lediglich für private Mitteilungen verwendet wurden), wurden nicht berücksichtigt. Aus rechtlichen Gründen können nur die folgenden Daten weitergegeben werden: (1) Eine Liste aller Kandidaten, die in dem Projekt berücksichtigt wurden, ihre Schlüsselattribute und, falls verfügbar, die Identifikation ihrer Twitter- und Facebook-Konten. (2) Eine Liste von Tweet-IDs, mit denen die Original-Tweets der Kandidaten abgerufen werden können, die sie zwischen Juni und Dezember 2013 gepostet haben. Sie enthält die Tweet-ID und eine ID, die den Kandidaten identifiziert. Die Daten, die die Kandidaten beschreiben, umfassen Variablen mit folgendem Inhalt: eine nachfolgende Nummer, Name des Kandidaten, Vorname, Mitglied welcher Partei ("AfD", "CDU", "CSU", "Die LINKE", "FDP", "GRUENE", "PIRATEN", "SPD"), Bundesland (z.B. "Bayern"), ist gelistet (ja, nein), ist direkter Kandidat (ja, nein), Wahlkreis (z.B. "Aachen I"), hat Facebook-Account (ja, nein), facebook_link, hat Twitter-Account (ja, nein), twitter_screenname und Variablen zur Häufigkeit der Twitter-Nutzung.

Download link / Web Access

http://dx.doi.org/10.4232/1.12319

Publikationen

  • Kaczmirek, L., Mayr, P., Vatrapu, R., Bleier, A., Blumenberg, M., Gummer, T., … Wolf, C. (2014). Social Media Monitoring of the Campaigns for the 2013 German Bundestag Elections on Facebook and Twitter. Retrieved from www.gesis.org/fileadmin/upload/forschung/publikationen/gesis_reihen/gesis_arbeitsberichte/WorkingPapers_2014-31.pdf
  • Mayr, P., & Weller, K. (2017). Think Before You collect: Setting Up a Data Collection Approach for Social Media Studies. In L. Sloan & A. Quan-Haase (Eds.), The SAGE Handbook of Social Media Research Methods (pp. 107–124). London: SAGE Publications Ltd.

Team

 NameE-MailTelefon
 Dr. Philipp Mayr E-Mail+49 (221) 47694-533

 

ClaimsKG - Ein Knowledge Graph aus annotierten Claims

Beschreibung

ClaimsKG ist ein Knowledge Graph bestehend aus verlinkten und annotierten Behauptungen (Claims) von Fact Checking Websites. Er ermöglicht strukturierte Abfragen nach Behauptungen, deren Bewertung (Truth Values) und weiteren Metadaten. ClaimsKG wird über eine (semi-)automatische Pipeline generiert, die regelmäßig Behauptungen und dazugehörige Metadaten von beliebten Fact Checking Websites harvestet, die Daten in ein RDF/S Datenmodell unter Berücksichtigung von etablierten Schemata wie schema.org und NIF transformiert und Behauptungen mit verwandten Entitäten von DBpedia annotiert.

Link to source code (GitLab)

https://github.com/claimskg

Download link / Web Access

Website: https://data.gesis.org/claimskg/site
SPARQL endpoint: https://data.gesis.org/claimskg/sparql 

Team

 NameE-MailTelefon
 Dr. Benjamin Zapilko
(Kontaktperson)
E-Mail+49 (221) 47694-515
 Prof. Dr. Stefan Dietze E-Mail+49 (221) 47694-421
 Matthäus Zloch M.Sc. E-Mail+49 (221) 47694-534
 M.A. Katarina Boland E-Mail+49 (221) 47694-513

 

lodcc

Beschreibung

Mit zunehmender Verfügbarkeit und Interkonnektivität von RDF-Datensätzen steigt auch die Notwendigkeit die Strukturen der Datensätze zu verstehen. Das Wissen über die Struktur von RDF-Graphen kann die Entwicklung, von z.B. Generatoren für synthetische Datensätze, Stichprobenmethoden, Indexstrukturen oder Abfrageoptimierern, begünstigen.

In dieser Arbeit werden zwei Ressourcen vorgestellt: (i) ein Software-Framework, das in der Lage ist, eine graph-basierte Analyse der Topologie großer RDF-Graphen zu erfassen, vorzubereiten und durchzuführen, und (ii) Ergebnisse einer graph-basierten Analyse von 280 Datensätzen aus der LOD Cloud mit Werten für 28 Graphmaße, die mit dem Framework berechnet wurden.

Download link / Web Access

Source Code: https://git.gesis.org/matthaeus/lodcc 

Web page: https://data.gesis.org/lodcc/2017-08/ 

Link to demo / prototype

https://data.gesis.org/lodcc/2017-08/

Link to source code (GitLab)

https://git.gesis.org/matthaeus/lodcc

Publikation

  • Zloch, M. & Acosta, M. & Hienert, D. & Dietze, S. & Conrad, S. (2019). (to be published) A Software Framework and Datasets for the Analysis of Graph Measures on RDF Graphs. In ESWC 2019, Portoroz, Slovenia, 2-4 June, 2019.

Team

 NameE-MailTelefon
 Matthäus Zloch M.Sc.
(Kontaktperson)
E-Mail+49 (221) 47694-534
 Dr. Daniel Hienert E-Mail+49 (221) 47694-525

 

An Open Testbed for Author Name Disambiguation Evaluation

Beschreibung

Wir haben 5.408 Autoren in DBLP identifiziert, die eine eindeutige Identifikationsnummer haben. Diese 5.408 Autoren und ihre Publikationen bilden den Goldstandard. Wir haben diese Zahlen von DBLP (Version: Mai 2015).

Download link / Web Access

http://dx.doi.org/10.7802/1234

Publikation

  • Momeni, F., & Mayr, P. (2016). Evaluating Co-authorship Networks in Author Name Disambiguation for Common Names. In 20th International Conference on Theory and Practice of Digital Libraries (TPDL 2016) (pp. 386–391). doi.org/10.1007/978-3-319-43997-6_31

Team

 NameE-MailTelefon
 Dr. Philipp Mayr
(Kontaktperson)
E-Mail+49 (221) 47694-533
 Fakhri Momeni E-Mail+49 (221) 47694-544

 

Sowiport user queries sample (SQS)

Beschreibung

Dieser Datensatz enthält eine zufällige Stichprobe von 1.800 Nutzeranfragen aus dem Transaktionslog der akademischen Suchmaschine sowiport (www.sowiport.de). Die Abfragen wurden aus einem größeren Satz zufällig ausgewählter Benutzersitzungen extrahiert, die zwischen dem 1. September 2014 und dem 1. März 2015 in sowiport aufgezeichnet wurden. Um das Rauschen im Datensatz zu verringern, haben wir Sitzungen ausgewählt, in denen mindestens zwei verschiedene Suchen durchgeführt und mindestens ein Dokument angeklickt wurde. Außerdem haben wir alle Suchen nach Nummern (hauptsächlich ISSN-Nummern) ausgeschlossen. Die ausgewählten Abfragen wurden nach dem Zufallsprinzip sortiert und von einem Domain-Experten manuell bewertet. Die Zufälligkeit wurde eingeführt, um mögliche Verzerrungen bei der Bewertung zu verringern. Bei der Bewertung mehrerer Abfragen aus einer Sitzung können die vorherigen Abfragen die Entscheidung für folgende Abfragen beeinflussen, da sie dann in einem Kontext ausgewertet werden. Die 1.800 Nutzeranfragen wurden in die 29 Facetten der im Thesaurus Sozialwissenschaften (TheSoz) verwendeten Fachkategorien eingeteilt. Es war zulässig mehrere Facetten anzuwenden, da einige Abfragen mehrere Themen abdecken.

Download link / Web Access

http://dx.doi.org/10.7802/1372

Publikation

  • Hienert, D., Sawitzki, F., & Mayr, P. (2015). Digital Library Research in Action – Supporting Information Retrieval in Sowiport. D-Lib Magazine, 21(3/4). doi.org/10.1045/march2015-hienert

Team

 NameE-MailTelefon
 Dr. Philipp Mayr E-Mail+49 (221) 47694-533

 

LRMI Datasets

Beschreibung

Die LRMI-Datensätze enthalten Markup, das aus den Web Data Commons bzw. den Releases 2013, 2014, 2015, 2016, 2017 des WDC extrahiert wurden. Jede Entitätsbeschreibung entspricht einem Satz von Quadrupeln q der Form {s, p, o, u}, wobei s, p, o ein Triple darstellt, bestehend aus Subjekt, Prädikat, Objekt und u die URL des Dokuments d darstellt, aus dem das Triple jeweils extrahiert wurde. Für eine bestimmte reale Entität e gibt es in der Regel n ≥ 0 Subjekte s, die unterschiedliche Beschreibungen von e darstellen. Genau genommen enthält dieser Datensatz alle eingebetteten Markup-Anweisungen, die aus Dokumenten extrahiert wurden (im jeweiligen Web Data Commons Datensatz), die mindestens ein Triple {s, p, o} enthalten, wobei entweder p auf eines der LRMI-Prädikate verweist oder s oder o Instanzen von LRMI-spezifischen Typen AlignmentObject oder EducationalAudience repräsentiert.

Download link / Web Access

Publikationen

  • Taibi, D., Dietze, S., Towards embedded markup of learning resources on the Web: a quantitative Analysis of LRMI Terms Usage, in Companion Publication of the IW3C2 WWW 2016 Conference, IW3C2 2016, Montreal, Canada, April 11, 2016

  • Dietze, S., Taibi, D., Yu, R., Barker, P., d’Aquin, M., Analysing and Improving embedded Markup of Learning Resources on the Web, 26th International World Wide Web Conference (WWW2017), full research paper at Digital Learning track, Perth, Australia, April 2017.

Team

 NameE-MailTelefon
 Ran Yu
(Kontaktperson)
E-Mail+49 (221) 47694-483
 Prof. Dr. Stefan Dietze E-Mail+49 (221) 47694-421

 

SAL - Search log with user knowledge assessment data

Beschreibung

Dieser Datensatz enthält 1100 Recherchesitzungen, die von Mitarbeitern durchgeführt wurden und sich über 11 zufällig aus dem TREC 2014 Web Track 2 Datensatz ausgewählten Informationsbedürfnissen zu verschiedenen Themen erstrecken. Dazu gehören auch Daten zur Wissensbewertung vor und nach jeder der 100 Suchsitzungen pro Informationsbedarf.

Merkmale

Log der Recherchesitzung, Wissensbewertung zu einem bestimmten Thema vor und nach einer Sitzung

Download link / Web Access

https://sites.google.com/view/predicting-user-knowledge 

Publikationen

  • Yu, R. , Gadiraju, U. , Holtz, P. , Rokicki, M. , Kemkes, P. and Dietze, S. Predicting User Knowledge Gain in Informational Search Sessions. 41st International ACM SIGIR Conference on Research and Development in Information Retrieval, 2018.

  • Gadiraju, U. , Yu, R. , Dietze, S. and Holtz, P.  Analyzing Knowledge Gain of Users in Informational Search Sessions on the Web. 2018 ACM on Conference on Human Information Interaction and Retrieval (CHIIR), 2018

Team

 NameE-MailTelefon
 Ran Yu
(Kontaktperson)
E-Mail+49 (221) 47694-483
 Prof. Dr. Stefan Dietze E-Mail+49 (221) 47694-421

 

TweetsKB

Description

TweetsKB is a public RDF corpus of anonymized data for a large collection of annotated tweets. The dataset currently contains data for more than 1.5 billion tweets, spanning more than 5 years (February 2013 - March 2018). Metadata information about the tweets as well as extracted entities, sentiments, hashtags and user mentions are exposed in RDF using established RDF/S vocabularies. For the sake of privacy, we encrypt the tweet IDs and usernames, and we do not provide the text of the tweets.

Download link / Web Access

Website: https://data.gesis.org/tweetskb/
SPARQL endpoint: https://data.gesis.org/tweetskb/sparql (Graph URI: https://data.gesis.org/tweetskb/)

Publications

  • P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze, TweetsKB: A Public and Large-Scale RDF Corpus of Annotated Tweets, 15th Extended Semantic Web Conference (ESWC'18), Heraklion, Crete, Greece, June 3-7, 2018.

Team

 NameE-MailTelefon
 Prof. Dr. Stefan Dietze
(Kontaktperson)
E-Mail+49 (221) 47694-421
 Matthäus Zloch M.Sc. E-Mail+49 (221) 47694-534
Felix Bensmann E-Mail+49 (221) 47694-524

Anwendungen & Demos

Nach oben

 

GESIS Research Graph

Beschreibung

Der GESIS Research Graph baut einen Forschungsgraph auf, der Verbindungen zwischen hochwertigen Sammlungen von Forschungsdaten und anderen wissenschaftlichen Werken wie Publikationen und Forschungsprojekten aufzeigt und erkundbar macht. Um den Graph aufzubauen, wird die Switchboard Software, die von der Data Description Registry Interoperability (DDRI) Arbeitsgruppe der Research Data Alliance (RDA) entwickelt wurde, eingesetzt, um Forschungsinformationen von GESIS-Datensammlungen zu aggregieren, verlinken und zu veröffentlichen.

Link to source code (GitLab)

https://github.com/researchgraph

Link to demo / prototype

http://researchgraph.org/gesis/

Team

 NameE-MailTelefon
 Dr. Benjamin Zapilko E-Mail+49 (221) 47694-515

 

Opening Scholarly Communication in the Social Sciences (OSCOSS)

Beschreibung

Die wissenschaftliche Kommunikation in den Sozialwissenschaften konzentriert sich auf Veröffentlichungen, in denen auch Daten eine Schlüsselrolle spielen. Der zunehmend kollaborative wissenschaftliche Prozess, von einem Projektplan über das Sammeln von Daten und deren Interpretation in einem Papier und deren Einreichung zur Begutachtung durch Fachkollegen bis hin zur Veröffentlichung eines Artikels und schließlich zum Konsumieren durch die Leser, wird von den heutigen Informationssystemen nicht ausreichend unterstützt. Die Systeme unterstützen jeden einzelnen Schritt, aber Medienbrüche zwischen den Schritten führen zu Ineffizienz und Informationsverlust: Textverarbeitungsprogramme haben keinen direkten Zugriff auf Daten. Reviewer können in dem Umfeld, in dem Autoren ihre Papiere überarbeiten, kein Feedback geben. Open Access-Webpublishing ist auf Dokumentformate beschränkt, die für den Druck auf Papier entwickelt wurden, vernachlässigt jedoch die Zugänglichkeit und das Interaktivitätspotenzial des Webs. Schließlich können Leser, die eine einzige eingefrorene Ansicht der zugrunde liegenden Daten in einem Papier sehen, nicht auf den gesamten Umfang der Daten zugreifen und Beobachtungen machen, die über den vom Autor gewählten eingeschränkten Umfang hinausgehen.

Mit dem kollaborativen Dokumenteneditor Fidus Writer und dem Open Journal System wählen wir ein stabiles technisches Fundament. Wir sichern die Akzeptanz der Benutzer, indem wir die Merkmale der traditionellen Prozesse respektieren, an die sich Sozialwissenschaftler gewöhnt haben: Webpublikationen müssen das gleiche hochwertige Layout haben wie Printpublikationen, und Informationen müssen durch stabile Seitenzahlen zitierbar bleiben. Um sicherzustellen, dass wir diese Anforderungen erfüllen, werden wir eng mit den Herausgebern von methods, data, analyses (mda) und Historical Social Research (HSR) zusammenarbeiten, zwei von GESIS veröffentlichten, von Experten überprüften, öffentlich zugänglichen Fachzeitschriften, und frühe Demonstratoren für die Bewertung der Benutzerfreundlichkeit aufbauen.

OSCOSS wird von der DFG im Rahmen des Open Access Transformation-Programms gefördert.

Link to source code (GitLab)

https://github.com/OSCOSS

https://github.com/fiduswriter

Link to demo / prototype

https://fiduswriter.gesis.org/

Publikationen

  • Sadeghi, A., Capadisli, S., Wilm, J., Lange, C., & Mayr, P. (2019). Opening and Reusing Transparent Peer Reviews with Automatic Article Annotation. Publications, 7(1). doi.org/10.3390/publications7010013
  • Mayr, P., & Lange, C. (2017). The Opening Scholarly Communication in Social Sciences project OSCOSS. In P. Hauke, A. Kaufmann, & V. Petras (Eds.), Bibliothek – Forschung für die Praxis. Festschrift für Konrad Umlauf zum 65. Geburtstag (pp. 433–444). De Gruyter. Retrieved from arxiv.org/abs/1611.04760.
  • Sadeghi, A., Wilm, J., Mayr, P., & Lange, C. (2017). Opening Scholarly Communication in Social Sciences by Connecting Collaborative Authoring to Peer Review. Information - Wissenschaft & Praxis

Team

 NameE-MailTelefon
 Dr. Philipp Mayr
(Kontaktperson)
E-Mail+49 (221) 47694-533
 Fakhri Momeni E-Mail+49 (221) 47694-544

 

EXCITE – Extraction of Citations from PDF Documents

Beschreibung

Das EXCITE-Projekt, das von WeST (Universität Koblenz-Landau) in Koblenz und GESIS (Leibniz-Institut für Sozialwissenschaften) in Köln gemeinsam durchgeführt wird, wird von der Deutschen Forschungsgemeinschaft (DFG) gefördert. Ziel ist die Extraktion von Zitaten aus sozialwissenschaftlichen Publikationen und die Bereitstellung weiterer Zitierdaten für Forscher. Zu diesem Zweck wurde eine Reihe von Algorithmen für die Extraktion und das Matching von Informationen entwickelt, die sich auf sozialwissenschaftliche Veröffentlichungen in deutscher Sprache konzentrieren. EXCITE bietet verschiedene Online-Dienste zum Extrahieren und Segmentieren von Zitaten. Darüber hinaus stehen andere Online-Tools zur Verfügung, um Goldstandarddaten zu erstellen.

Die Demo ist eine Toolkette von Zitatextraktionssoftware mit besonderem Schwerpunkt auf den deutschsprachigen Sozialwissenschaften. Dies ist ein öffentlicher Dienst für das Projekt. Im Hintergrund dieser Seite verwenden wir CERMINE zum Extrahieren von Inhalten aus PDF-Dateien und Exparser zum Extrahieren und Segmentieren von Referenzzeichenfolgen.

Download link / Web Access

http://excite.west.uni-koblenz.de/website/

Link to demo / prototype

http://excite.west.uni-koblenz.de/excite

Link to source code (GitLab)

https://github.com/exciteproject

Publikation

  • Körner, M., Ghavimi, B., Mayr, P., Hartmann, H., & Staab, S. (2017). Evaluating Reference String Extraction Using Line-Based Conditional Random Fields: A Case Study with German Language Publications. In M. Kirikova, K. Nørvåg, G. A. Papadopoulos, J. Gamper, R. Wrembel, J. Darmont, & S. Rizzi (Eds.), New Trends in Databases and Information Systems (Vol. 767, pp. 137–145). Cham: Springer International Publishing. doi.org/10.1007/978-3-319-67162-8_15

Team

 NameE-MailTelefon
 Dr. Philipp Mayr
(Kontaktperson)
E-Mail+49 (221) 47694-533

 

GWSBeta

Beschreibung

Auch in den Sozialwissenschaften suchen Forscher nach Informationen im Web, aber diese sind oft auf verschiedenen Websites, in Suchportalen, digitalen Bibliotheken, Datenarchiven und Datenbanken verteilt. Die GESIS-Suche ist ein integriertes Suchsystem für sozialwissenschaftliche Informationen, das es ermöglicht, Informationen rund um Forschungsdaten in einer Anwendung zu finden. Die Benutzer können nach Forschungsdatensätzen, Publikationen, Umfragevariablen, Fragen aus Fragebögen, Umfrageinstrumenten und -instrumenten suchen. Die Informationselemente sind miteinander verknüpft, so dass der Nutzer z.B. sehen kann, welche Publikationen Datenzitate zu Forschungsdaten enthalten. Die Integration und Verknüpfung verschiedener Arten von Informationen erhöht ihre Sichtbarkeit, so dass es für Forscher einfacher wird, Forschungsinformation zur Wiederverwendung zu finden.

Merkmale

  • Integrierte Suche über Forschungsdatensätze, Publikationen, Umfragevariablen, Fragen aus Fragebögen, Umfrageinstrumente und -tools

  • Verknüpfungen zwischen Informationselementen

Download link / Web Access

https://searchtest.gesis.org

Publikation

  • Daniel Hienert, Dagmar Kern, Katarina Boland, Benjamin Zapilko, Peter Mutschke. (to appear). "A Digital Library for Research Data and Related Information in the Social Sciences." In Proceedings of JCDL 2019.

Team

 NameE-MailTelefon
 Dr. Daniel Hienert
(Kontaktperson)
E-Mail+49 (221) 47694-525
 Dr. Dagmar Kern E-Mail+49 (221) 47694-536
 M.A. Katarina Boland E-Mail+49 (221) 47694-513
 Dr. Benjamin Zapilko E-Mail+49 (221) 47694-515
 Peter Mutschke M.A. E-Mail+49 (221) 47694-500

Tools & Pipelines

Nach oben

 

InFoLiS - Integration von Forschungsdaten und Literatur in den Sozialwissenschaften

Beschreibung

Das Ziel von InFoLiS war Forschungsdaten und Publikationen miteinander zu verlinken. In diesem Zusammenhang wurde ein Tool entwickelt, das Zitationen von Forschungsdaten in wissenschaftlichen Publikationen identifiziert und extrahiert. Diese extrahierten Zitationen werden  für die Generation von Links zwischen den Datensätzen und Publikationen genutzt. Die generierten Links können in verschiedene Suchsysteme integriert werden. Alle Services für die Erstellung von Links sind frei als Web Services nutzbar.

Download link / Web Access

http://infolis.github.io/

Link to source code (GitLab)

https://github.com/infolis

Publikationen

  • Boland, K. & Mathiak, B. (2013). Connecting Literature and Research Data. In IASSIST 2013 - Data Innovation: Increasing Accessibility, Visibility, and Sustainability, Cologne, Germany, May 29-31, 2013.
  • Boland, K.; Ritze, D.; Eckert, K.; Mathiak, B. (2012): Identifying references to datasets in publications. In: Zaphiris, P.; Buchanan, G.; Rasmussen, E.; Loizides, F. (Hrsg.): Proceedings of the Second International Conference on Theory and Practice of Digital Libraries (TPDL 2012), S.150-161, 2012.
  • Mathiak, B.; Boland K. (2015): Challenges in Matching Dataset Citation Strings to Datasets in Social Science. D-Lib Magazine 21 (1/2). doi.org/10.1045/january2015-mathiak
  • Ritze, D.; Boland, K. (2013): Integration of Research Data and Research Data Links into Library Catalogues. Proceedings of the International Conference on Dublin Core and Metadata Applications (DC 2013), 2013.

Team

 NameE-MailTelefon
 M.A. Katarina Boland
(Kontaktperson)
E-Mail+49 (221) 47694-513
 Dr. Benjamin Zapilko E-Mail+49 (221) 47694-515

 

WHOSE

Beschreibung

WHOSE ist ein Framework für die Analyse des Suchverhaltens von realen Benutzern in verschiedenen Suchumgebungen und verschiedenen Domänen auf der Grundlage von Logdaten. Die Logkomponente kann problemlos in reale IR-Systeme zur Generierung und Analyse neuer Logdaten integriert werden. Darüber hinaus ist es durch ein zu erstellendes Mapping auch möglich, vorhandene Protokolldaten zu analysieren. Für jedes IR-System können verschiedene Aktionen und Filter definiert werden. Damit können Portalbetreiber und Forscher das Framework zur Analyse des Suchverhaltens von Benutzern in ihren IR-Systemen nutzen und mit anderen vergleichen. Über eine grafische Benutzeroberfläche haben sie die Möglichkeit, den Datensatz interaktiv von einem groben Überblick bis hin zu einzelnen Sitzungen zu analysieren.

Merkmale

  • Logging von Interaktionsdaten
  • Mapping von vorhandenen Logdaten zu Benutzeraktionen
  • Visualisierung von Benutzeraktionen
  • Interaktive Analyse von Verhaltensdaten innerhalb der GUI

Link to source code (GitLab)

https://git.gesis.org/iir/whole-session-evaluation-framework

Publikation

  • Hienert, Daniel, Wilko van Hoek, Alina Weber, and Dagmar Kern. 2015. "WHOSE – A Tool for Whole-Session Analysis in IIR." In Advances in Information Retrieval: 37th European Conference on IR Research, ECIR 2015, Vienna, Austria, March 29 - April 2, 2015. Proceedings, Lecture Notes in Computer Science 9022, 172-183. Springer. arxiv.org/abs/1504.06961.

Team

 NameE-MailTelefon
 Dr. Daniel Hienert E-Mail+49 (221) 47694-525

 

Reading Protocol

Beschreibung

In Interactive Information Retrieval (IIR)-Experimenten wird die Blickbewegung des Benutzers auf Webseiten oft mit Eyetracking aufgezeichnet. Die Daten werden verwendet, um das Blickverhalten zu analysieren oder um Areas of Interest (AOI) zu identifizieren, die der Benutzer betrachtet hat. Die Reading Protocol-Software unterteilt Eyetracking-Daten bis auf die Textebene, indem sie die HTML-Struktur der Webseiten berücksichtigt. Dies hat für den Analysten viele Vorteile. Erstens lässt sich erkennen, was von den Probanden tatsächlich gesehen und auf den Webseiten gelesen wurde. Zweitens kann die Webseitenstruktur verwendet werden, um nach AOIs zu filtern. Drittens können Blickdaten mehrerer Benutzer auf derselben Seite dargestellt werden, und viertens können Fixierungszeiten auf Text exportiert und in anderen Tools weiterverarbeitet werden.

Merkmale

  • Mapping der Eye-Tracking-Daten auf die Wortebene
  • Interaktives Erkunden von Wort-Fixierungen in der GUI

Link to demo / prototype:

http://vizgr.org/reading_protocol/

Link to source code (GitLab)

https://git.gesis.org/iir/reading-protocol

Publikation

  • Hienert, Daniel, Dagmar Kern, Matthew Mitsui, Chirag Shah, and Nicholas J. Belkin. 2019. "Reading Protocol: Understanding what has been read in Interactive Information Retrieval Tasks." In CHIIR '19 Proceedings of the 2019 Conference on Human Information Interaction and Retrieval, 73-81. New York: ACM. doi: http://dx.doi.org/10.1145/3295750.3298921.

Team

 NameE-MailTelefon
 Dr. Daniel Hienert
(Kontaktperson)
E-Mail+49 (221) 47694-525
 Dr. Dagmar Kern E-Mail+49 (221) 47694-536

 

Präferenzbasierte Suche

Beschreibung

Die Online-Suche nach einem bestimmten Produkt kann eine Herausforderung für Benutzer sein. Facettierte Suchoberflächen, oft in Kombination mit Empfehlungsdiensten, können den Benutzer unterstützen, ein Produkt zu finden, das seinen Präferenzen entspricht. Diese Präferenzen sind jedoch nicht immer gleich gewichtet: Einige könnten für einen Benutzer wichtiger sein als andere (z.B. Rot ist die Lieblingsfarbe, aber Blau ist auch ok) und manchmal sind die Präferenzen sogar widersprüchlich (z.B. der niedrigste Preis vs. die höchste Leistung). Oftmals gibt es sogar kein Produkt, das alle Vorlieben erfüllt. In diesen Fällen stoßen facettierte Suchschnittstellen an ihre Grenzen. In diesem Projekt untersuchen wir das Potenzial einer Suchoberfläche, die ein präferenzbasiertes Ranking basierend auf gewichteten Such- und Facettenbegriffen ermöglicht.

Merkmale

  • Ein Suchsystem mit Benutzeroberfläche, das es ermöglicht, die Einstellungen für verschiedene Facetten anzupassen

Link to source code (GitLab)

https://git.gesis.org/iir/preferenced-based-search

Publikation

  • Kern, Dagmar, Wilko van Hoek, and Daniel Hienert. 2018. "Evaluation of a Search Interface for Preference-Based Ranking - Measuring User Satisfaction and System Performance." In NordiCHI '18 Proceedings of the 10th Nordic Conference on Human-Computer Interaction, 184-194. New York: ACM. doi: http://dx.doi.org/10.1145/3240167.3240170.

Team

 NameE-MailTelefon
 Dr. Daniel Hienert E-Mail+49 (221) 47694-525

 

Variable Detection and Linking

Beschreibung

Im Kontext des EU-Projekts OpenMinTeD (http://openminted.eu/) wurden Methoden untersucht und entwickelt, um Referenzen auf Umfragevariablen in sozialwissenschaftlichen Publikationen zu identifizieren und mit Datensätzen bei GESIS zu verknüpfen. Die entwickelte Methode wurde an einer Teilmenge von Variablen getestet.

Download link / Web Access

https://services.openminted.eu/landingPage/application/51d1f81b-aa0f-4675-bb87-8c720779e949 

Link to source code (GitLab)

https://github.com/openminted/uc-tdm-socialsciences 

Publikationen

  • Zielinski, Andrea, and Peter Mutschke. 2018. "Towards a Gold Standard Corpus for Variable Detection and Linking in Social Science Publications." In Proceedings of LREC 2018
  • Zielinski, Andrea, and Peter Mutschke. 2017. "Mining Social Science Publications for Survey Variables." In Proceedings of the Second Workshop on Natural Language Processing and Computational Social Science, Vancouver, Canada, August 3, 2017, edited by Dirk Hovy, Svitlana Volkova, and David Bamman, 47–52. Association for Computational Linguistics. aclweb.org/anthology/W17-29. aclweb.org/anthology/W17-29.

Team

 NameE-MailTelefon
 Peter Mutschke M.A.
(Kontaktperson)
E-Mail+49 (221) 47694-500
Andrea Zielinski Dr. E-Mail+49 (221) 47694-212

 

ReshapeRDF

Beschreibung

ReshapeRDF ist ein CLI-Werkzeug welches vielseitige Funktionalität zur Sichtung und Umformung großer RDF-Dumps bereitstellt. Es wurde speziell entworfen, um mit dem Unix Tool Set zusammenzuarbeiten.

Die Verarbeitung von RDF-Massendaten kann sich als schwierige Aufgabe erweisen. Gängige Triplestores bieten Funktionalität zur Abfrage und Manipulation von RDF-Daten, aber nur wenige können dies effizient mit Massendaten (angenommen mehr als 200 Mio. Statements). Typische Operationen wie Datenimport und SPARQL-Updates erweisen sich oftmals als zeitaufwändig und umständlich, um sie in umfangreichen Umformungsaufgaben einzusetzen.

Aus diesem Grund kann es eine Lösung sein, sofern man mit moderat strukturierten Graphdaten arbeitet, auf Triplestores zu verzichten und stattdessen direkt mit den Dump-Files zu arbeiten. Beispiele wiederkehrender Umformungsaufgaben sind die Extraktion von Entitäten einer bestimmten Klasse aus einem großen Datensatz, oder dessen Unterteilung in Blöcke gemäß eines bestimmten Properties (Blocking), Filterung, Extraktion und Entfernung von Ressourcen und Statements und ähnliche Operationen.

ReshapeRDF ermöglicht die vorgenannten Operationen. Sein Funktionsprinzip ist es RDF-Daten als Strom von N-Triples (zeilenbasiert) zu behandeln und auf diese Weise den Einsatz zusammen mit dem Unix Tool Set und Skriptingumgebungen zu ermöglichen.

Die ursprüngliche Version dieses Werkzeugs kam im Projekt linked.swissbib.ch zum Einsatz.

Merkmale

  • Konvertierung zwischen verschiedenen RDF-Formaten
  • Entfernung von Duplikaten
  • Umbenennung von Properties
  • Aufteilung von Datensätzen
  • Zusammenführung von Datensätzen
  • Sortierung von Datensätzen
  • Extraktion von Ressourcen, Statements, Subjects, Predicates und Objects anhand von Patterns
  • Extraktion von Ressourcen anhand einer Liste
  • Filterung von Ressourcen anhand eines Patterns
  • Filterung von Ressourcen anhand einer Liste
  • Enges Zusammenwirken mit den Unix Tools
  • ... Weitere Informationen finden Sie hier.

Link to source code (GitLab)

https://git.gesis.org/bensmafx/reshapeRDF 

Publikation

  • Bensmann, Felix, Benjamin Zapilko, and Philipp Mayr. 2017. "Interlinking Large-scale Library Data with Authority Records." Frontiers in Digital Humanities 4 (5): 1-13. doi: dx.doi.org/10.3389/fdigh.2017.00005.

Team

 NameE-MailTelefon
Felix Bensmann E-Mail+49 (221) 47694-524