Theses

The following master/bachelor thesis topics are currently offered by the Text Technology Lab. You are also welcome to bring in your own topics and ideas. If you are interested in one of them, please contact Alexander Mehler.

Spatial Verbs (B.Sc., M.Sc.)

Description
For everyday actions certain items are often needed. For example, washing requires water and usually soap. But this can be further specified by the arguments of the verb, e.g. different objects are required for washing apples than for washing the floor . The aim of this thesis is to establish a knowledge database covering such relationships and to train a neural network that learns them. Finally, the quality of the data has to be evaluated and it has to be examined how the neural network performs on unknown verb-argument-relations. Parameters to vary include the choice of datasets, preprocessing methods and neural network structures.
Beschreibung
Für alltägliche Handlungen werden oft bestimmte Gegenstände benötigt. Zum Beispiel erfordert das Waschen in der Regel die Verwendung von Wasser und Seife. Dies kann durch die Argumente des jeweiligen Verbs weiter ausspezifiziert werden, z.B. werden zum Waschen von Äpfeln andere Gegenstände benötigt als zum Waschen des Bodens . Das Ziel dieser Arbeit ist es, eine Wissensdatenbank zu erstellen, die solche Beziehungen in Teilen abdeckt , und ein neuronales Netz zu trainieren, das solche Beziehungen lernt. Hierzu soll die Qualität der Daten bewertet werden und es soll untersucht werden, wie das neuronale Netz bei unbekannten Verb-Argument-Beziehungen abschneidet. Zu den zu variierenden Parametern gehören die Wahl der Datensätze, der Vorverarbeitungsmethoden und der Netzwerkstrukturen.

PartNet (B.Sc., M.Sc.)

Description
In our Unity3D project Text2SceneVR we aim to automatically map segments of texts to 3D models of the objects described by these segments. The goal of this work is to extend this functionality by means of PartNet , a sub-project of ShapeNet , in such a way that it is possible to connect parts of objects with text segments describing them. The system to be created should make it possible to edit the parts of an object according to several attributes (size, texture, …) and to combine them into new objects. Ideally, the user is supported by allowing gesture input and voice control. Finally, the resulting tool is to be evaluated by a user study regarding its handling and functionality.
Beschreibung
In unserem Unity3D Projekt Text2SceneVR zielen wir u.a. darauf, Segmente von Texten automatisch auf 3D-Modelle jener Objekte abbilden, die diese Segmente beschreiben. Das Ziel der Arbeit besteht nun darin, diese Funktionalität mittels PartNet , ein Unterprojekt von ShapeNet , so zu erweitern, dass es möglich wird, Teile von Objekten mit den sie beschreibenden Textsegmenten zu verbinden. Das zu erstellende System soll es ermöglichen, die Teile eines Objektes nach mehreren Merkmalen (Größe, Textur, …) zu bearbeiten und zu neuen Objekten zusammenzufassen. Idealerweise wird der Benutzer durch die Möglichkeit der Gesteneingabe und Sprachsteuerung unterstützt. Abschließend ist das entstandene Werkzeug durch eine User-Studie hinsichtlich seiner Handhabung und Funktionalität zu bewerten.

Multimodal word embeddings (B.Sc., M.Sc.)

Description
Usually, word embeddings are obtained from co-occurrence pattern within texts. Using annotated image databases, these embeddings can be enriched by embeddings on image features, giving rise to so-called multimodal embeddings . Within this broad topic, the candidate develops multimodal embeddings and compares them to unimodal ones on various tasks from computational linguistics such as word sense disambiguation. Parameters to vary include the choice of image database, the segmentation of image annotations, image feature selection, the integration of verbal and visual embeddings, and evaluation scenario.
Beschreibung
Für gewöhnlich werden Word Embeddings aus Kookkurrenzmustern in Texten erstellt. Unter Verwendung von Bilddatenbanken können diese Embeddings mit Embeddings für Bildmerkmale zu sogenannten multimodalen Embeddings erweitert werden . Innerhalb dieses groben Themas erstellt der Kandidat oder die Kandidatin ein multimodales Embedding und vergleicht es mit unimodalen Embeddings bezüglich computerlinguistischer Aufgaben wie die Disambiguierung von Wortsinnen. Verschiedene Parameter können dabei variiert werden: die gewählte Bilddatenbank, die Segmentierung der Bildannotationen, die Auswahl der Bildmerkmale, die Art der Integration von verbalen und visuellen Embeddings, und die Wahl der Evaluationsszenarien.

Inference Engine on Spatial and Temporal Relations (M.Sc.)

Description
In order to infer new statements from a body of given statements a so-called inference or reasoning engine (e.g., is required. The candidate plans and implements an inference engine on temporal and spatial statements such as “is included in” and “earlier then”. A main challenge of this thesis is to account for transitive inference pattern of temporal and spatial relations.
Beschreibung
Um neue Aussagen aus einem Datensatz mit gegebenen Aussagen abzuleiten, wird eine Inferenz- oder Reasoning-Engine (z.B., ) verwendet. Die Kandidatin oder der Kandidat plant und implementiert eine Inferenz-Engine für zeitliche und räumliche Aussagen wie “ist enthalten in” und “früher als”. Eine der Herausforderungen dieser Abschlussarbeit liegt darin, transitive Inferenzmuster über zeitliche und räumliche Relationen zu erfassen.

Authorship-related Word Embeddings (B.Sc., M.Sc.)

Description
Word embeddings are usually computed on large corpora. The larger and more diverse the corpora, the more diverse the aspects of the respective language that can be represented in the embedding space. In this thesis, embedding spaces for different authors will be calculated and analyzed separately. For this purpose, the candidate will pre-train word embeddings on large corpora and then specialize them on smaller corpora. Finally, the embedding spaces created for the different authors have to be evaluated and analyzed in the context of automatic authorship recognition.
Beschreibung
Worteinbettungen werden normalerweise auf großen Korpora berechnet. Je größer und vielfältiger das Korpus, desto vielfältiger die Aspekte der jeweiligen Sprache, die im Einbettungsraum abgebildet werden können. In dieser Arbeit sollen Einbettungsräume für verschiedene Autoren getrennt berechnet und analysiert werden. Zu diesem Zweck wird der Kandidat Worteinbettungen auf großen Korpora vortrainieren und dann für kleinere Korpora spezialisieren. Die für die verschiedenen Autoren erzeugten Einbettungsräume sollen schließlich im Kontext der automatischen Autorenerkennung evaluiert und analysiert werden.

Topic Models (B.Sc., M.Sc.)

Description
There are various methods for classifying texts according to topic. These include established models such as topic models based on Latent Dirichlet Allocation (LDA), but also newer methods such as text2ddc. In this thesis, the differences and similarities of these and related topic models will be analyzed and evaluated comparatively. The candidate will focus on combinations of these topic models to increase their overall performance.
Beschreibung
Es gibt verschiedene Methoden, um Texte nach Themen zu klassifizieren. Dazu gehören etablierte Modelle wie Themenmodelle auf der Basis der Latent Dirichlet Allocation (LDA), aber auch neuere Methoden wie text2ddc. In dieser Arbeit sollen die Unterschiede und Ähnlichkeiten dieser und verwandter Themenmodelle analysiert und vergleichend bewertet werden. Ein Schwerpunkt der Kandidatin oder des Kandidaten liegt auf Kombinationen dieser Themenmodelle zur Steigerung ihrer Gesamtleistung.

GeoNames-based Modeling and Recognition of Toponyms (B.Sc., M.Sc.)

Description
The recognition of places and geographical units in texts is implemented to a certain extent by existing taggers for named entities. These taggers usually only determine whether a textual expression denotes a place (and is therefore a toponym) or not. This recognition is to be extended by using GeoNames as a data source for place names and their classes. GeoNames is a free data source that contains an ontology for places and geographical areas. The task is to develop a UIMA-based annotator for the recognition and annotation of places and geographical units and to test it with the texts from the BIOfid project . The UIMA-annotator has to be implemented as a pipeline for TextImager . Furthermore, an extension for the TextAnnotator for GeoNames has to be developed to correct existing or create new annotations. Finally, the system has to be evaluated using the BIOfid dataset.
Beschreibung
Die Erkennung von Orten und geographischen Einheiten in Texten wird bis zu einem gewissen Grad durch bestehende Tagger für benannte Entitäten umgesetzt. Diese Tagger bestimmen in der Regel nur, ob ein Textausdruck einen Ort bezeichnet (und damit ein Toponym ist) oder nicht. Diese Erkennung soll durch die Verwendung von GeoNames als Datenquelle für Ortsnamen und deren Klassen erweitert werden. GeoNames ist eine freie Datenquelle, die eine Ontologie für Orte und geographische Gebiete enthält. Die Aufgabe besteht darin, einen UIMA-Annotator zur Erkennung und Annotation von Orten und geographischen Einheiten zu entwickeln und mit den Texten aus dem BIOfid-Projekt zu testen. Der UIMA-Annotator soll als Pipeline für den TextImager implementiert werden. Außerdem soll eine Erweiterung für den TextAnnotator für GeoNames entwickelt werden, um Annotationen zu korrigieren oder zu erstellen. Schließlich soll das System anhand des BIOfid-Datensatzes evaluiert werden.

Active Learning for TextAnnotator (M.Sc.)

Description
Active learning (AL) serves as a method of supervised learning to increase the accuracy of classifiers to be trained. Through AL, machine learning gains influence on the data with which it learns by asking human experts about the results for selected data items. In this way, a higher performance should be achieved, especially for data that is difficult to classify. The goal of this thesis is to extend TextAnnotator with an AL component and to evaluate it with selected annotation tasks. Ideally, the work is based on ensemble methods such as CRFVoter or LSTMVoter. Thus, an ensemble learner is to be developed that integrates individual classifiers for annotation tasks and performs updates: the AL generates ever new training and test examples, whereby both the classifiers included in the ensemble and the ensemble learner are retrained. The planned architecture should be programmed generically so that it can be related to different annotation tasks.
Beschreibung
Aktives Lernen (AL) dient als eine Methode des überwachten Lernens, um die Genauigkeit zu trainierender Klassifikatoren zu erhöhen. Durch AL gewinnt das maschinelle Lernen Einfluss auf die Daten, mit denen es lernt, indem menschliche Experten zu den Resultaten für ausgewählte Datenelemente befragt werden. Hierdurch soll eine höhere Leistung insbesondere bei schwer zu klassifizierenden Daten erreicht werden. Das Ziel dieser Arbeit ist es, TextAnnotator um eine AL-Komponente zu erweitern und diese mit Hilfe ausgewählter Annotationsaufgaben zu evaluieren. Idealerweise basiert die Arbeit auf Ensemble-Methoden wie CRFVoter oder LSTMVoter. Es soll also ein Ensemble-Lerner entwickelt werden, der einzelne Klassifikatoren für Annotationsaufgaben integriert und Aktualisierungen durchführt: das AL generiert immer neue Trainings- und Testbeispiele, wobei sowohl die zu einem Ensemble zusammengefassten Klassifikatoren als auch der Ensemble-Lerner nachtrainiert werden. Die geplante Architektur sollte generisch programmiert werden, so dass sie auf verschiedene Annotationsaufgaben bezogen werden kann.

Wikidition Meets TextImager: Interfacing Big NLP Data (M.Sc.)

Description
TextImager is a framework for mapping the landscape of Natural Language Processing (NLP) tools and making them available also to non-experts. It integrates tools, which are based on proprietary IO formats, for a range of languages and has a type system that makes these tools interoperable. In this way, the tools are organized in pipelines so that they benefit from each other. TextImager is a scalable distributed system that can handle big data . What is missing is a corresponding visualization component. Wikidition , a MediaWiki-based system for representing corpora as wikis, is suitable for this visualization. The task of the thesis is to improve TextImager as a platform for processing big linguistic data and to extend the visualization functionality of Wikidition. The following subtasks are involved: the database model of TextImager is to be optimized, Wikidition is to be integrated as an interface for the visualization of big linguistic data and the overall system is to be documented. Required prior knowledge: Java, NoSQL, MediaWiki, interest in software engineering and software architectures.
Beschreibung
TextImager ist ein Rahmenwerk zur Abbildung der bestehenden Landschaft von Natural Language Processing (NLP) Tools und ihrer Verfügbarmachung auch für Nicht-Experten. TextImager integriert Tools für eine Reihe von Sprachen und verfügt über ein Typensystem, das seine auf proprietären IO-Formaten basierenden Werkzeuge interoperabel macht. Auf diese Weise werden seine Werkzeuge in Pipelines organisiert, so dass sie von einander profitieren. TextImager ist ein skalierbares verteiltes System , das große Datenmengen verarbeiten kann (https://textimager.hucompute.org/rest-big-data/doku/#). Was fehlt, ist eine entsprechende Visualisierungskomponente. Wikidition , ein MediaWiki-basiertes System zur Repräsentation von Korpora als Wikis, eignet sich für diese Visualisierung. Die Aufgabe der Arbeit ist es, TextImager als Plattform zur Verarbeitung großer linguistischer Daten zu verbessern und die Visualisierungsfunktionalität von Wikidition zu erweitern. Dabei geht es um folgende Teilaufgaben: Das Datenbankmodell von TextImager soll optimiert werden, Wikidition soll als Schnittstelle zur Visualisierung großer linguistischer Daten integriert werden und das Gesamtsystem soll dokumentiert werden. Erforderliche Vorkenntnisse: Java, NoSQL, MediaWiki, Interesse an Softwareentwicklung und Softwarearchitekturen.

Modeling Semantic Roles for Verb Sense Disambiguation (M.Sc.)

Description
Verbs are used to describe states, events or processes; they form the syntactic and semantic core of sentences, whereby knowledge of their meanings is central to sentence and text comprehension. According to the Duden dictionary, verbs in German have on average more than two senses, so that their disambiguation is indispensable for making statements about the meaning of sentences and larger units such as texts. The TTLab has already done preliminary work on verb-sense disambiguation (VSD) for German. Among other things, it has created the largest VSD corpus for German to date. Each verb in this corpus is assigned a meaning representation. The verb meanings depend strongly on the arguments with which the verbs co-occur. The occurrences of the verbs can be assigned to the respective senses by means of their theta grids, i.e. via the lists of semantic roles associated with them (agent, patient, instrument, etc.). The aim of this thesis is to extend the TTLab VSD corpus by learning theta grids of verbs, so that more information is available for deep learning, which aims at VSD. Required prior knowledge: German as a native language, machine learning.
Beschreibung
Verben dienen dazu Zustände, Ereignisse oder Vorgänge zu beschreiben; sie bilden den syntaktischen und semantischen Kern von Sätzen, wobei die Kenntnis ihrer Bedeutungen für das Satz- und Textverständnis zentral ist. Nach dem Duden haben Verben im Deutschen im Durchschnitt mehr als 2 Sinne, so dass ihre Disambiguierung unerlässlich ist, um Aussagen über die Bedeutung von Sätzen und größeren Einheiten wie z.B. Texten machen zu können. Das TTLab hat bereits Vorarbeiten zur Verb-Sinn-Disambiguierung (VSD) für das Deutsche geleistet. Es hat unter anderem das bisher größte VSD-Korpus für das Deutsche erstellt. Jedem Verb in diesem Korpus ist eine Bedeutungsrepräsentation zugeordnet. Die Verbbedeutungen hängen stark von den Argumenten ab, mit denen die Verben zusammen vorkommen. Die Vorkommen der Verben können den jeweiligen Sinnen mittels ihrer Theta-Raster zugeordnet werden, d.h. über die Liste der mit ihnen verbundenen semantischen Rollen (Agens, Patiens, Instrument etc.). Das Ziel dieser Arbeit ist es, das TTLab-VSD-Korpus durch das Lernen von Theta-Rastern von Verben zu erweitern, so dass mehr Informationen für das Deep-Learning, das auf die VSD abzielt, zur Verfügung stehen. Erforderliche Vorkenntnisse: Deutsch als Muttersprache, maschinelles Lernen.

Sample Bachelor Theses

Other theses resources