- Home
- Forschung
- Forschungsbereich Computational Methods
- KTS Research Labs
KTS Research Labs
Forschungsdatensätze
SoMeSci - A 5 Star Open Data Gold Standard Knowledge Graph of Software Mentions in Scientific Articles
Beschreibung
Daten über die in wissenschaftlichen Untersuchungen verwendete Software sind aus verschiedenen Gründen wichtig, z. B. um ihre Herkunft und die Methoden ihrer Verarbeitung verstehen zu können. Software wird jedoch in der Regel nicht formell zitiert, sondern eher informell benannt, was seinerseits eine automatische Extraktion dieser Informationen und ihre Disambiguierung erfordert. Angesichts fehlender und verlässlicher Ground Truth präsentieren wir SoMeSci - Software Mentions in Science - einen Goldstandard-Wissensgraphen für Software-Nennungen in wissenschaftlichen Artikeln. SoMeSci enthält qualitativ hochwertige Annotationen (IRR: κ = .82) von 3756 Software-Nennungen in 1367 PubMed Central-Artikeln. Neben der reinen Nennung der Software stellen wir auch gelabelte Beziehungen zu zusätzlichen Informationen, wie der Version, dem Entwickler, einer URL oder formellen Zitationen bereit. Außerdem unterscheiden wir zwischen verschiedenen Software-Typen, wie Anwendung, Plugin oder Programmierumgebung, sowie zwischen verschiedenen Arten von Nennungen, beispielsweise Nutzung oder Erstellung. Nach unseren Informationen ist SoMeSci der umfangreichste Datensatz seiner Art, der für das Training von Named Entity Recognition, Relation Extraction, Entity Disambiguation und Entity Linking verwendet werden kann.
Download link / Web Access
Website: https://data.gesis.org/somesci/
SPARQL endpoint: https://data.gesis.org/somesci/sparql
Dataset: https://zenodo.org/record/4701763
Link to Source Code
Github: https://github.com/dave-s477/SoMeSci_Code
Publikationen
- David Schindler, Felix Bensmann, Stefan Dietze and Frank Krüger. 2021. SoMeSci- A 5 Star Open Data Gold Standard Knowledge Graph of Software Mentions in Scientific Articles. In Proceedings of the 30th ACM International Conference on Information & Knowledge Management (CIKM ‘21). Association for Computing Machinery, New York, NY, USA, 4574–4583. DOI: https://doi.org/10.1145/3459637.3482017
SoftwareKG_Social und SoftwareKG_Pubmed
Beschreibung
SoftwareKG_Social und SoftwareKG_PubMed sind zwei gemeinsame Projekte der Universität Rostock und GESIS - Leibniz-Institut für Sozialwissenschaften, die die Nennung von Software in wissenschaftlichen Artikeln dokumentieren.
Diese beiden Wissensgraphen (KG) ermöglichen es Nutzenden, die Rolle von Software in der Wissenschaft einzusehen, abzufragen und somit zu verstehen. SoftwareKG_Social ist unser Startprojekt aus dem Jahr 2019 und basiert auf einem Datensatz von 51.000 Artikeln aus den Sozialwissenschaften, während SoftwareKG_PubMed aus dem Jahr 2021 stammt und eine anspruchsvollere Analyse auf einem größeren Datensatz von mehr als 3M PubMed Central Artikeln umfasst. Beide KGs verwenden ein sehr ähnliches Datenmodell und sind aus Extraktionsmethoden entstanden, die iterativ verbessert wurden.
Download link / Web Access
Publikationen
- Schindler D, Bensmann F, Dietze S, Krüger F. (2022). The role of software in science: a knowledge graph-based analysis of software mentions in PubMed Central. PeerJ Computer Science 8:e835 https://doi.org/10.7717/peerj-cs.835
- Schindler D., Zapilko B., Krüger F. (2020) Investigating Software Usage in the Social Sciences: A Knowledge Graph Approach. In: Harth A. et al. (eds) The Semantic Web. ESWC 2020. Lecture Notes in Computer Science, vol 12123. Springer, Cham. https://doi.org/10.1007/978-3-030-49461-2_16
Dataset of Natural Language Queries for E-Commerce (VACOS-NLQ)
Beschreibung
Das VACOS-NLQ Datenset enthält 3540 natürlichsprachliche Suchanfragen für Laptops und Jacken. Da Voice Search ein immer wichtiger werdendes Thema ist – nicht zuletzt durch die Verbreitung von Sprachassistenten wie Siri oder Alexa – ist die Verarbeitung und das Verstehen von natürlichsprachlichen Suchanfragen ein nicht zu unterschätzendes Problem für Produktsuchmaschinen. Wir haben natürlichsprachliche Suchanfragen von englischen Muttersprachlern für Laptops und Jacken gesammelt, und diese mit Informationen über die Suchenden (Alter, Geschlecht, Domänenwissen) angereichert. Die Laptop-Suchanfragen sind außerdem hinsichtlich wichtiger Produktattribute und vager Wörter annotiert, um Forschung im Information Retrieval und im Natural Language Processing zu ermöglichen. Das Datenset ist unter der CC BY-NC-SA 3.0 Lizenz verfügbar.
Download link / Web Access
Link to source code (GitLab)
Publikationen
- Papenmeier, Andrea, Alfred Sliwa, Dagmar Kern, Daniel Hienert, Ahmet Aker, and Norbert Fuhr. 2021. "Dataset of Natural Language Queries for E-Commerce." In Proceedings of the 2021 ACM SIGIR Conference on Human Information Interaction and Retrieval (CHIIR '21), March 14--19, 2021, Canberra, ACT, Australia, doi: http://dx.doi.org/10.1145/3406522.3446043
Team
TweetsCOV19
Beschreibung
TweetsCOV19 is a semantically annotated corpus of tweets about the COVID-19 pandemic. It is a subset of TweetsKB and aims at capturing online discourse about various aspects of the pandemic and its societal impact. Metadata information about the tweets as well as extracted entities, sentiments, hashtags and user mentions are exposed in RDF using established RDF/S vocabularies. This dataset consists of 8,151,524 tweets in total, posted by 3,664,518 users and reflects the societal discourse about COVID-19 on Twitter in the period of October 2019 until April 2020.
Download link / Web Access
Website: https://data.gesis.org/tweetscov19/
SPARQL endpoint: https://data.gesis.org/tweetscov19/sparql (Graph IRI: http://data.gesis.org/tweetscov19)
Publikationen
- Dimitrov, D., Baran, E., Fafalios, F., Yu, R., Zhu, X., Zloch, M., and Dietze, D.,TweetsCOV19 -- A Knowledge Base of Semantically Annotated Tweets about the COVID-19 Pandemic, 29th ACM International Conference on Information & Knowledge Management (CIKM2020), Resource Track, ACM 2020.
Team
TweetsKB
Beschreibung
TweetsKB is a public RDF corpus of anonymized data for a large collection of annotated tweets. The dataset currently contains data for more than 1.5 billion tweets, spanning more than 5 years (February 2013 - March 2018). Metadata information about the tweets as well as extracted entities, sentiments, hashtags and user mentions are exposed in RDF using established RDF/S vocabularies. For the sake of privacy, we encrypt the tweet IDs and usernames, and we do not provide the text of the tweets.
Download link / Web Access
Website: https://data.gesis.org/tweetskb/
SPARQL endpoint: https://data.gesis.org/tweetskb/sparql (Graph URI: https://data.gesis.org/tweetskb/)
Publikationen
- P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze, TweetsKB: A Public and Large-Scale RDF Corpus of Annotated Tweets, 15th Extended Semantic Web Conference (ESWC'18), Heraklion, Crete, Greece, June 3-7, 2018.
Team
Sowiport User Search Sessions Data Set (SUSS)
Beschreibung
Dieser Datensatz enthält einzelne Suchsitzungen aus dem Transaktionslog der akademischen Suchmaschine sowiport (www.sowiport.de). Die Daten wurden über einen Zeitraum von einem Jahr (zwischen dem 2. April 2014 und dem 2. April 2015) gesammelt. Die Webserver-Protokolldateien und bestimmte auf Javascript basierende Protokollierungstechniken wurden verwendet, um das Nutzungsverhalten innerhalb des Systems zu erfassen. Alle Aktivitäten sind einer Liste von 58 Aktionen zugeordnet. Diese Liste umfasst alle Arten von Aktivitäten und Seiten, die innerhalb des Systems ausgeführt / besucht werden können (z. B. Eingabe einer Abfrage, Besuch eines Dokuments, Auswahl einer Facette usw.). Für jede Aktion werden eine Sitzungs-ID, der Datumsstempel und zusätzliche Informationen (z. B. Abfragen, Dokument-IDs und Ergebnislisten) gespeichert. Die Sitzungs-ID wird über ein Browser-Cookie zugewiesen und ermöglicht die Verfolgung des Benutzerverhaltens über mehrere Suchvorgänge hinweg. Der Datensatz enthält 558.008 einzelne Suchsitzungen und insgesamt 7.982.427 Protokolleinträge. Die durchschnittliche Anzahl von Aktionen pro Suchsitzung beträgt 7.
Der Datensatz 'SUSS-16-17' ist eine Weiterentwicklung des SUSS-Datensatzes (Sowiport User Search Sessions Data Set).
Link to source code (GitLab)
Download link / Web Access
Publikationen
- Kacem, A., & Mayr, P. (2018). Analysis of Search Stratagem Utilisation. Scientometrics, 116(2), 1383–1400. doi.org/10.1007/s11192-018-2821-8
- Hienert, D., Sawitzki, F., & Mayr, P. (2015). Digital Library Research in Action – Supporting Information Retrieval in Sowiport. D-Lib Magazine, 21(3/4). doi.org/10.1045/march2015-hienert
German Bundestag Elections 2013: Twitter usage by electoral candidates
Beschreibung
Die Daten sind das Ergebnis eines Forschungsprojekts bei GESIS, das sich mit Social Media-Kommunikation im Zusammenhang mit der Bundestagswahl am 22. September 2013 befasste. Die Daten umfassen Tweets von Kandidaten und eine Datei mit den wichtigsten Attributen der Kandidaten und Listen ihrer Twitter- und Facebook-Konten. Tweets wurden für Kandidaten aller betroffenen Parteien mit Ausnahme der AfD gesammelt. Alle Daten waren zum Zeitpunkt der Datenerhebung öffentlich verfügbar. Fälle, in denen ein Twitter- oder Facebook-Konto nicht als Teil der Rolle als Kandidat verwendet wurde (d. H. Private Konten und Konten, die lediglich für private Mitteilungen verwendet wurden), wurden nicht berücksichtigt. Aus rechtlichen Gründen können nur die folgenden Daten weitergegeben werden: (1) Eine Liste aller Kandidaten, die in dem Projekt berücksichtigt wurden, ihre Schlüsselattribute und, falls verfügbar, die Identifikation ihrer Twitter- und Facebook-Konten. (2) Eine Liste von Tweet-IDs, mit denen die Original-Tweets der Kandidaten abgerufen werden können, die sie zwischen Juni und Dezember 2013 gepostet haben. Sie enthält die Tweet-ID und eine ID, die den Kandidaten identifiziert. Die Daten, die die Kandidaten beschreiben, umfassen Variablen mit folgendem Inhalt: eine nachfolgende Nummer, Name des Kandidaten, Vorname, Mitglied welcher Partei ("AfD", "CDU", "CSU", "Die LINKE", "FDP", "GRUENE", "PIRATEN", "SPD"), Bundesland (z.B. "Bayern"), ist gelistet (ja, nein), ist direkter Kandidat (ja, nein), Wahlkreis (z.B. "Aachen I"), hat Facebook-Account (ja, nein), facebook_link, hat Twitter-Account (ja, nein), twitter_screenname und Variablen zur Häufigkeit der Twitter-Nutzung.
Download link / Web Access
Publikationen
- Kaczmirek, L., Mayr, P., Vatrapu, R., Bleier, A., Blumenberg, M., Gummer, T., … Wolf, C. (2014). Social Media Monitoring of the Campaigns for the 2013 German Bundestag Elections on Facebook and Twitter. Retrieved from www.gesis.org/fileadmin/upload/forschung/publikationen/gesis_reihen/gesis_arbeitsberichte/WorkingPapers_2014-31.pdf
- Mayr, P., & Weller, K. (2017). Think Before You collect: Setting Up a Data Collection Approach for Social Media Studies. In L. Sloan & A. Quan-Haase (Eds.), The SAGE Handbook of Social Media Research Methods (pp. 107–124). London: SAGE Publications Ltd.
ClaimsKG - Ein Knowledge Graph aus annotierten Claims
Beschreibung
ClaimsKG ist ein Knowledge Graph bestehend aus verlinkten und annotierten Behauptungen (Claims) von Fact Checking Websites. Er ermöglicht strukturierte Abfragen nach Behauptungen, deren Bewertung (Truth Values) und weiteren Metadaten. ClaimsKG wird über eine (semi-)automatische Pipeline generiert, die regelmäßig Behauptungen und dazugehörige Metadaten von beliebten Fact Checking Websites harvestet, die Daten in ein RDF/S Datenmodell unter Berücksichtigung von etablierten Schemata wie schema.org und NIF transformiert und Behauptungen mit verwandten Entitäten von DBpedia annotiert.
Link to source code (GitLab)
Download link / Web Access
Website: https://data.gesis.org/claimskg/site
SPARQL endpoint: https://data.gesis.org/claimskg/sparql
Iodcc
Beschreibung
Mit zunehmender Verfügbarkeit und Interkonnektivität von RDF-Datensätzen steigt auch die Notwendigkeit die Strukturen der Datensätze zu verstehen. Das Wissen über die Struktur von RDF-Graphen kann die Entwicklung, von z.B. Generatoren für synthetische Datensätze, Stichprobenmethoden, Indexstrukturen oder Abfrageoptimierern, begünstigen.
In dieser Arbeit werden zwei Ressourcen vorgestellt: (i) ein Software-Framework, das in der Lage ist, eine graph-basierte Analyse der Topologie großer RDF-Graphen zu erfassen, vorzubereiten und durchzuführen, und (ii) Ergebnisse einer graph-basierten Analyse von 280 Datensätzen aus der LOD Cloud mit Werten für 28 Graphmaße, die mit dem Framework berechnet wurden.
Download link / Web Access
Source Code: https://git.gesis.org/matthaeus/lodcc
Web page: https://data.gesis.org/lodcc/2017-08/
Link to demo / prototype
Link to source code (GitLab)
Publikation
- Zloch, M. & Acosta, M. & Hienert, D. & Dietze, S. & Conrad, S. (2019). (to be published) A Software Framework and Datasets for the Analysis of Graph Measures on RDF Graphs. In ESWC 2019, Portoroz, Slovenia, 2-4 June, 2019.
An Open Testbed for Author Name Disambiguation Evaluation
Beschreibung
Wir haben 5.408 Autor*innen in DBLP identifiziert, die eine eindeutige Identifikationsnummer haben. Diese 5.408 Autor*innen und ihre Publikationen bilden den Goldstandard. Wir haben diese Zahlen von DBLP (Version: Mai 2015).
Download link / Web Access
Publikation
- Momeni, F., & Mayr, P. (2016). Evaluating Co-authorship Networks in Author Name Disambiguation for Common Names. In 20th International Conference on Theory and Practice of Digital Libraries (TPDL 2016) (pp. 386–391). doi.org/10.1007/978-3-319-43997-6_31
Team
Sowiport user queries sample (SQS)
Beschreibung
Dieser Datensatz enthält eine zufällige Stichprobe von 1.800 Nutzeranfragen aus dem Transaktionslog der akademischen Suchmaschine sowiport (www.sowiport.de). Die Abfragen wurden aus einem größeren Satz zufällig ausgewählter Benutzersitzungen extrahiert, die zwischen dem 1. September 2014 und dem 1. März 2015 in sowiport aufgezeichnet wurden. Um das Rauschen im Datensatz zu verringern, haben wir Sitzungen ausgewählt, in denen mindestens zwei verschiedene Suchen durchgeführt und mindestens ein Dokument angeklickt wurde. Außerdem haben wir alle Suchen nach Nummern (hauptsächlich ISSN-Nummern) ausgeschlossen. Die ausgewählten Abfragen wurden nach dem Zufallsprinzip sortiert und von einem Domain-Experten manuell bewertet. Die Zufälligkeit wurde eingeführt, um mögliche Verzerrungen bei der Bewertung zu verringern. Bei der Bewertung mehrerer Abfragen aus einer Sitzung können die vorherigen Abfragen die Entscheidung für folgende Abfragen beeinflussen, da sie dann in einem Kontext ausgewertet werden. Die 1.800 Nutzeranfragen wurden in die 29 Facetten der im Thesaurus Sozialwissenschaften (TheSoz) verwendeten Fachkategorien eingeteilt. Es war zulässig mehrere Facetten anzuwenden, da einige Abfragen mehrere Themen abdecken.
Download link / Web Access
Publikation
- Hienert, D., Sawitzki, F., & Mayr, P. (2015). Digital Library Research in Action – Supporting Information Retrieval in Sowiport. D-Lib Magazine, 21(3/4). doi.org/10.1045/march2015-hienert
LRMI Datasets
Beschreibung
Die LRMI-Datensätze enthalten Markup, das aus den Web Data Commons bzw. den Releases 2013, 2014, 2015, 2016, 2017 des WDC extrahiert wurden. Jede Entitätsbeschreibung entspricht einem Satz von Quadrupeln q der Form {s, p, o, u}, wobei s, p, o ein Triple darstellt, bestehend aus Subjekt, Prädikat, Objekt und u die URL des Dokuments d darstellt, aus dem das Triple jeweils extrahiert wurde. Für eine bestimmte reale Entität e gibt es in der Regel n ≥ 0 Subjekte s, die unterschiedliche Beschreibungen von e darstellen. Genau genommen enthält dieser Datensatz alle eingebetteten Markup-Anweisungen, die aus Dokumenten extrahiert wurden (im jeweiligen Web Data Commons Datensatz), die mindestens ein Triple {s, p, o} enthalten, wobei entweder p auf eines der LRMI-Prädikate verweist oder s oder o Instanzen von LRMI-spezifischen Typen AlignmentObject oder EducationalAudience repräsentiert.
Download link / Web Access
- Download: http://lrmi.itd.cnr.it/lrmiwp/
Publikationen
-
Taibi, D., Dietze, S., Towards embedded markup of learning resources on the Web: a quantitative Analysis of LRMI Terms Usage, in Companion Publication of the IW3C2 WWW 2016 Conference, IW3C2 2016, Montreal, Canada, April 11, 2016
-
Dietze, S., Taibi, D., Yu, R., Barker, P., d’Aquin, M., Analysing and Improving embedded Markup of Learning Resources on the Web, 26th International World Wide Web Conference (WWW2017), full research paper at Digital Learning track, Perth, Australia, April 2017.
SAL - Search log with user knowledge assessment data
Beschreibung
Dieser Datensatz enthält 1100 Recherchesitzungen, die von Mitarbeitern durchgeführt wurden und sich über 11 zufällig aus dem TREC 2014 Web Track 2 Datensatz ausgewählten Informationsbedürfnissen zu verschiedenen Themen erstrecken. Dazu gehören auch Daten zur Wissensbewertung vor und nach jeder der 100 Suchsitzungen pro Informationsbedarf.
Merkmale
Log der Recherchesitzung, Wissensbewertung zu einem bestimmten Thema vor und nach einer Sitzung
Download link / Web Access
Publikationen
-
Yu, R. , Gadiraju, U. , Holtz, P. , Rokicki, M. , Kemkes, P. and Dietze, S. Predicting User Knowledge Gain in Informational Search Sessions. 41st International ACM SIGIR Conference on Research and Development in Information Retrieval, 2018.
-
Gadiraju, U. , Yu, R. , Dietze, S. and Holtz, P. Analyzing Knowledge Gain of Users in Informational Search Sessions on the Web. 2018 ACM on Conference on Human Information Interaction and Retrieval (CHIIR), 2018
Anwendungen & Demos
GESIS Research Graph
Beschreibung
Der GESIS Research Graph baut einen Forschungsgraph auf, der Verbindungen zwischen hochwertigen Sammlungen von Forschungsdaten und anderen wissenschaftlichen Werken wie Publikationen und Forschungsprojekten aufzeigt und erkundbar macht. Um den Graph aufzubauen, wird die Switchboard Software, die von der Data Description Registry Interoperability (DDRI) Arbeitsgruppe der Research Data Alliance (RDA) entwickelt wurde, eingesetzt, um Forschungsinformationen von GESIS-Datensammlungen zu aggregieren, verlinken und zu veröffentlichen.
Link to source code (GitLab)
Link to demo / prototype
Opening Scholarly Communication in the Social Sciences (OSCOSS)
Beschreibung
Die wissenschaftliche Kommunikation in den Sozialwissenschaften konzentriert sich auf Veröffentlichungen, in denen auch Daten eine Schlüsselrolle spielen. Der zunehmend kollaborative wissenschaftliche Prozess, von einem Projektplan über das Sammeln von Daten und deren Interpretation in einem Papier und deren Einreichung zur Begutachtung durch Fachkollegen bis hin zur Veröffentlichung eines Artikels und schließlich zum Konsumieren durch die Leser, wird von den heutigen Informationssystemen nicht ausreichend unterstützt. Die Systeme unterstützen jeden einzelnen Schritt, aber Medienbrüche zwischen den Schritten führen zu Ineffizienz und Informationsverlust: Textverarbeitungsprogramme haben keinen direkten Zugriff auf Daten. Reviewer können in dem Umfeld, in dem Autoren ihre Papiere überarbeiten, kein Feedback geben. Open Access-Webpublishing ist auf Dokumentformate beschränkt, die für den Druck auf Papier entwickelt wurden, vernachlässigt jedoch die Zugänglichkeit und das Interaktivitätspotenzial des Webs. Schließlich können Leser, die eine einzige eingefrorene Ansicht der zugrunde liegenden Daten in einem Papier sehen, nicht auf den gesamten Umfang der Daten zugreifen und Beobachtungen machen, die über den vom Autor gewählten eingeschränkten Umfang hinausgehen.
Mit dem kollaborativen Dokumenteneditor Fidus Writer und dem Open Journal System wählen wir ein stabiles technisches Fundament. Wir sichern die Akzeptanz der Benutzer, indem wir die Merkmale der traditionellen Prozesse respektieren, an die sich Sozialwissenschaftler gewöhnt haben: Webpublikationen müssen das gleiche hochwertige Layout haben wie Printpublikationen, und Informationen müssen durch stabile Seitenzahlen zitierbar bleiben. Um sicherzustellen, dass wir diese Anforderungen erfüllen, werden wir eng mit den Herausgebern von methods, data, analyses (mda) und Historical Social Research (HSR) zusammenarbeiten, zwei von GESIS veröffentlichten, von Experten überprüften, öffentlich zugänglichen Fachzeitschriften, und frühe Demonstratoren für die Bewertung der Benutzerfreundlichkeit aufbauen.
OSCOSS wird von der DFG im Rahmen des Open Access Transformation-Programms gefördert.
Link to source code (GitLab)
Link to demo / prototype
Publikationen
- Sadeghi, A., Capadisli, S., Wilm, J., Lange, C., & Mayr, P. (2019). Opening and Reusing Transparent Peer Reviews with Automatic Article Annotation. Publications, 7(1). doi.org/10.3390/publications7010013
- Mayr, P., & Lange, C. (2017). The Opening Scholarly Communication in Social Sciences project OSCOSS. In P. Hauke, A. Kaufmann, & V. Petras (Eds.), Bibliothek – Forschung für die Praxis. Festschrift für Konrad Umlauf zum 65. Geburtstag (pp. 433–444). De Gruyter. Retrieved from arxiv.org/abs/1611.04760.
- Sadeghi, A., Wilm, J., Mayr, P., & Lange, C. (2017). Opening Scholarly Communication in Social Sciences by Connecting Collaborative Authoring to Peer Review. Information - Wissenschaft & Praxis
Team
EXCITE – Extraction of Citations from PDF Documents
Beschreibung
Das EXCITE-Projekt, das von WeST (Universität Koblenz-Landau) in Koblenz und GESIS (Leibniz-Institut für Sozialwissenschaften) in Köln gemeinsam durchgeführt wird, wird von der Deutschen Forschungsgemeinschaft (DFG) gefördert. Ziel ist die Extraktion von Zitaten aus sozialwissenschaftlichen Publikationen und die Bereitstellung weiterer Zitierdaten für Forscher. Zu diesem Zweck wurde eine Reihe von Algorithmen für die Extraktion und das Matching von Informationen entwickelt, die sich auf sozialwissenschaftliche Veröffentlichungen in deutscher Sprache konzentrieren. EXCITE bietet verschiedene Online-Dienste zum Extrahieren und Segmentieren von Zitaten. Darüber hinaus stehen andere Online-Tools zur Verfügung, um Goldstandarddaten zu erstellen.
Die Demo ist eine Toolkette von Zitatextraktionssoftware mit besonderem Schwerpunkt auf den deutschsprachigen Sozialwissenschaften. Dies ist ein öffentlicher Dienst für das Projekt. Im Hintergrund dieser Seite verwenden wir CERMINE zum Extrahieren von Inhalten aus PDF-Dateien und Exparser zum Extrahieren und Segmentieren von Referenzzeichenfolgen.
Download link / Web Access
Link to demo / prototype
Link to source code (GitLab)
Publikation
- Körner, M., Ghavimi, B., Mayr, P., Hartmann, H., & Staab, S. (2017). Evaluating Reference String Extraction Using Line-Based Conditional Random Fields: A Case Study with German Language Publications. In M. Kirikova, K. Nørvåg, G. A. Papadopoulos, J. Gamper, R. Wrembel, J. Darmont, & S. Rizzi (Eds.), New Trends in Databases and Information Systems (Vol. 767, pp. 137–145). Cham: Springer International Publishing. doi.org/10.1007/978-3-319-67162-8_15
GWSBeta
Beschreibung
Auch in den Sozialwissenschaften suchen Forscher nach Informationen im Web, aber diese sind oft auf verschiedenen Websites, in Suchportalen, digitalen Bibliotheken, Datenarchiven und Datenbanken verteilt. Die GESIS-Suche ist ein integriertes Suchsystem für sozialwissenschaftliche Informationen, das es ermöglicht, Informationen rund um Forschungsdaten in einer Anwendung zu finden. Die Benutzer können nach Forschungsdatensätzen, Publikationen, Umfragevariablen, Fragen aus Fragebögen, Umfrageinstrumenten und -instrumenten suchen. Die Informationselemente sind miteinander verknüpft, so dass der Nutzer z.B. sehen kann, welche Publikationen Datenzitate zu Forschungsdaten enthalten. Die Integration und Verknüpfung verschiedener Arten von Informationen erhöht ihre Sichtbarkeit, so dass es für Forscher einfacher wird, Forschungsinformation zur Wiederverwendung zu finden.
Merkmale
-
Integrierte Suche über Forschungsdatensätze, Publikationen, Umfragevariablen, Fragen aus Fragebögen, Umfrageinstrumente und -tools
-
Verknüpfungen zwischen Informationselementen
Download link / Web Access
Publikation
- Daniel Hienert, Dagmar Kern, Katarina Boland, Benjamin Zapilko, Peter Mutschke. (to appear). "A Digital Library for Research Data and Related Information in the Social Sciences." In Proceedings of JCDL 2019.
Team
Stellvertretender Abteilungsleiter
FAIR Data
Teamleiter
Mining Acknowledgement Texts in Web of Science (MinAck)
Beschreibung
The focus of the MinAck project is the detection and quantitative analysis of acknowledged entities using the FLAIR NLP-framework. We trained and implemented a named entity recognition (NER) task in a larger corpus of Web of Science (WoS) articles, which include acknowledgements.
The NER model was trained with the dataset containing over 600 annotated sentences from acknowledgement texts, written in scientific articles stored in WoS. The training was performed using the NER Model with Flair Embeddings. The Flair Embeddings model uses stacked embeddings, i.g. combination of contextual string embeddings with GloVe.
Our NER model (see datasets below) is able to recognize 6 entity types: funding agencies (FUND), corporations (COR), universities (UNI), individuals (IND), grant numbers (GRNB) and miscellaneous (MISC).
Download Link/ Web Access
Website: https://kalawinka.github.io/minack/
Datasets: https://doi.org/10.5281/zenodo.5776202
Online Demo
You can try our NER tagger demo by following this link: https://mybinder.org/v2/gh/kalawinka/minack/main?labpath=example_model.ipynb
This demo is an interactive notebook built with the Jupyter Notebook and Binder.Two options are available, you can try the model with our example of acknowledgement or you can type in your own acknowledgement text. To use the demo, launch one cell after another and follow the instructions, written in the notebook.
Team
Tools & Pipelines
InFoLiS - Integration von Forschungsdaten und Literatur in den Sozialwissenschaften
Beschreibung
Das Ziel von InFoLiS war Forschungsdaten und Publikationen miteinander zu verlinken. In diesem Zusammenhang wurde ein Tool entwickelt, das Zitationen von Forschungsdaten in wissenschaftlichen Publikationen identifiziert und extrahiert. Diese extrahierten Zitationen werden für die Generation von Links zwischen den Datensätzen und Publikationen genutzt. Die generierten Links können in verschiedene Suchsysteme integriert werden. Alle Services für die Erstellung von Links sind frei als Web Services nutzbar.
Download link / Web Access
Link to source code (GitLab)
Publikationen
- Boland, K. & Mathiak, B. (2013). Connecting Literature and Research Data. In IASSIST 2013 - Data Innovation: Increasing Accessibility, Visibility, and Sustainability, Cologne, Germany, May 29-31, 2013.
- Boland, K.; Ritze, D.; Eckert, K.; Mathiak, B. (2012): Identifying references to datasets in publications. In: Zaphiris, P.; Buchanan, G.; Rasmussen, E.; Loizides, F. (Hrsg.): Proceedings of the Second International Conference on Theory and Practice of Digital Libraries (TPDL 2012), S.150-161, 2012.
- Mathiak, B.; Boland K. (2015): Challenges in Matching Dataset Citation Strings to Datasets in Social Science. D-Lib Magazine 21 (1/2). doi.org/10.1045/january2015-mathiak
- Ritze, D.; Boland, K. (2013): Integration of Research Data and Research Data Links into Library Catalogues. Proceedings of the International Conference on Dublin Core and Metadata Applications (DC 2013), 2013.
WHOSE
Beschreibung
WHOSE ist ein Framework für die Analyse des Suchverhaltens von realen Benutzern in verschiedenen Suchumgebungen und verschiedenen Domänen auf der Grundlage von Logdaten. Die Logkomponente kann problemlos in reale IR-Systeme zur Generierung und Analyse neuer Logdaten integriert werden. Darüber hinaus ist es durch ein zu erstellendes Mapping auch möglich, vorhandene Protokolldaten zu analysieren. Für jedes IR-System können verschiedene Aktionen und Filter definiert werden. Damit können Portalbetreiber und Forscher das Framework zur Analyse des Suchverhaltens von Benutzern in ihren IR-Systemen nutzen und mit anderen vergleichen. Über eine grafische Benutzeroberfläche haben sie die Möglichkeit, den Datensatz interaktiv von einem groben Überblick bis hin zu einzelnen Sitzungen zu analysieren.
Merkmale
- Logging von Interaktionsdaten
- Mapping von vorhandenen Logdaten zu Benutzeraktionen
- Visualisierung von Benutzeraktionen
- Interaktive Analyse von Verhaltensdaten innerhalb der GUI
Link to source code (GitLab)
Publikationen
- Hienert, Daniel, Wilko van Hoek, Alina Weber, and Dagmar Kern. 2015. "WHOSE – A Tool for Whole-Session Analysis in IIR." In Advances in Information Retrieval: 37th European Conference on IR Research, ECIR 2015, Vienna, Austria, March 29 - April 2, 2015. Proceedings, Lecture Notes in Computer Science 9022, 172-183. Springer. arxiv.org/abs/1504.06961.
Reading Protocol
Beschreibung
In Interactive Information Retrieval (IIR)-Experimenten wird die Blickbewegung des Benutzers auf Webseiten oft mit Eyetracking aufgezeichnet. Die Daten werden verwendet, um das Blickverhalten zu analysieren oder um Areas of Interest (AOI) zu identifizieren, die der Benutzer betrachtet hat. Die Reading Protocol-Software unterteilt Eyetracking-Daten bis auf die Textebene, indem sie die HTML-Struktur der Webseiten berücksichtigt. Dies hat für den Analysten viele Vorteile. Erstens lässt sich erkennen, was von den Probanden tatsächlich gesehen und auf den Webseiten gelesen wurde. Zweitens kann die Webseitenstruktur verwendet werden, um nach AOIs zu filtern. Drittens können Blickdaten mehrerer Benutzer auf derselben Seite dargestellt werden, und viertens können Fixierungszeiten auf Text exportiert und in anderen Tools weiterverarbeitet werden.
Merkmale
- Mapping der Eye-Tracking-Daten auf die Wortebene
- Interaktives Erkunden von Wort-Fixierungen in der GUI
Link to demo / prototype:
Link to source code (GitLab)
Publikation
- Hienert, Daniel, Dagmar Kern, Matthew Mitsui, Chirag Shah, and Nicholas J. Belkin. 2019. "Reading Protocol: Understanding what has been read in Interactive Information Retrieval Tasks." In CHIIR '19 Proceedings of the 2019 Conference on Human Information Interaction and Retrieval, 73-81. New York: ACM. doi: http://dx.doi.org/10.1145/3295750.3298921.
Team
Präferenzbasierte Suche
Beschreibung
Die Online-Suche nach einem bestimmten Produkt kann eine Herausforderung für Benutzer sein. Facettierte Suchoberflächen, oft in Kombination mit Empfehlungsdiensten, können den Benutzer unterstützen, ein Produkt zu finden, das seinen Präferenzen entspricht. Diese Präferenzen sind jedoch nicht immer gleich gewichtet: Einige könnten für einen Benutzer wichtiger sein als andere (z.B. Rot ist die Lieblingsfarbe, aber Blau ist auch ok) und manchmal sind die Präferenzen sogar widersprüchlich (z.B. der niedrigste Preis vs. die höchste Leistung). Oftmals gibt es sogar kein Produkt, das alle Vorlieben erfüllt. In diesen Fällen stoßen facettierte Suchschnittstellen an ihre Grenzen. In diesem Projekt untersuchen wir das Potenzial einer Suchoberfläche, die ein präferenzbasiertes Ranking basierend auf gewichteten Such- und Facettenbegriffen ermöglicht.
Merkmale
-
Ein Suchsystem mit Benutzeroberfläche, das es ermöglicht, die Einstellungen für verschiedene Facetten anzupassen
Link to source code (GitLab)
Publikation
- Kern, Dagmar, Wilko van Hoek, and Daniel Hienert. 2018. "Evaluation of a Search Interface for Preference-Based Ranking - Measuring User Satisfaction and System Performance." In NordiCHI '18 Proceedings of the 10th Nordic Conference on Human-Computer Interaction, 184-194. New York: ACM. doi: http://dx.doi.org/10.1145/3240167.3240170.
Variable Detection and Linking
Beschreibung
Im Kontext des EU-Projekts OpenMinTeD (http://openminted.eu/) wurden Methoden untersucht und entwickelt, um Referenzen auf Umfragevariablen in sozialwissenschaftlichen Publikationen zu identifizieren und mit Datensätzen bei GESIS zu verknüpfen. Die entwickelte Methode wurde an einer Teilmenge von Variablen getestet.
Download link / Web Access
Link to source code (GitLab)
Publikationen
- Zielinski, Andrea, and Peter Mutschke. 2018. "Towards a Gold Standard Corpus for Variable Detection and Linking in Social Science Publications." In Proceedings of LREC 2018
- Zielinski, Andrea, and Peter Mutschke. 2017. "Mining Social Science Publications for Survey Variables." In Proceedings of the Second Workshop on Natural Language Processing and Computational Social Science, Vancouver, Canada, August 3, 2017, edited by Dirk Hovy, Svitlana Volkova, and David Bamman, 47–52. Association for Computational Linguistics. aclweb.org/anthology/W17-29. aclweb.org/anthology/W17-29.
Team
Stellvertretender Abteilungsleiter
FAIR Data
Teamleiter
ReshapeRDF
Beschreibung
ReshapeRDF ist ein CLI-Werkzeug welches vielseitige Funktionalität zur Sichtung und Umformung großer RDF-Dumps bereitstellt. Es wurde speziell entworfen, um mit dem Unix Tool Set zusammenzuarbeiten.
Die Verarbeitung von RDF-Massendaten kann sich als schwierige Aufgabe erweisen. Gängige Triplestores bieten Funktionalität zur Abfrage und Manipulation von RDF-Daten, aber nur wenige können dies effizient mit Massendaten (angenommen mehr als 200 Mio. Statements). Typische Operationen wie Datenimport und SPARQL-Updates erweisen sich oftmals als zeitaufwändig und umständlich, um sie in umfangreichen Umformungsaufgaben einzusetzen.
Aus diesem Grund kann es eine Lösung sein, sofern man mit moderat strukturierten Graphdaten arbeitet, auf Triplestores zu verzichten und stattdessen direkt mit den Dump-Files zu arbeiten. Beispiele wiederkehrender Umformungsaufgaben sind die Extraktion von Entitäten einer bestimmten Klasse aus einem großen Datensatz, oder dessen Unterteilung in Blöcke gemäß eines bestimmten Properties (Blocking), Filterung, Extraktion und Entfernung von Ressourcen und Statements und ähnliche Operationen.
ReshapeRDF ermöglicht die vorgenannten Operationen. Sein Funktionsprinzip ist es RDF-Daten als Strom von N-Triples (zeilenbasiert) zu behandeln und auf diese Weise den Einsatz zusammen mit dem Unix Tool Set und Skriptingumgebungen zu ermöglichen.
Die ursprüngliche Version dieses Werkzeugs kam im Projekt linked.swissbib.ch zum Einsatz.
Merkmale
- Konvertierung zwischen verschiedenen RDF-Formaten
- Entfernung von Duplikaten
- Umbenennung von Properties
- Aufteilung von Datensätzen
- Zusammenführung von Datensätzen
- Sortierung von Datensätzen
- Extraktion von Ressourcen, Statements, Subjects, Predicates und Objects anhand von Patterns
- Extraktion von Ressourcen anhand einer Liste
- Filterung von Ressourcen anhand eines Patterns
- Filterung von Ressourcen anhand einer Liste
- Enges Zusammenwirken mit den Unix Tools
- ... Weitere Informationen finden Sie hier.
Link to source code (GitLab)
Publikation
- Bensmann, Felix, Benjamin Zapilko, and Philipp Mayr. 2017. "Interlinking Large-scale Library Data with Authority Records." Frontiers in Digital Humanities 4 (5): 1-13. doi: dx.doi.org/10.3389/fdigh.2017.00005.