AG Kommunikationstheorie


Thema:

Smart Web 2.0 Cleaning mittels adäquater Modellierung von Conditional Random Fields

Abstract:

Die grossen und freizugänglichen Datenbestände im Internet sind seit einigen Jahren besonders attraktiv für Wissenschaft und Industrie. Beispielsweise kann mit diesen Trend- und Meinungsforschung betrieben werden. Jedoch müssen Webseiten aufbereitet werden bevor sie als Datengrundlage nutzbar sind. Ein essentieller Schritt bei der Vorverarbeitung ist das Webpage Cleaning. Hierbei sollen überflüssige Inhalte erkannt und letztendlich entfernt werden. Überflüssige Inhalte, auch Boilerplate genannt, sind in der Regel Werbung, Navigationselemente, Header, etc. In den bisherigen Ansätzen hat der heute allgegenwärtige Web 2.0 Inhalt, wie Nutzerkommentare, Blog- oder Foreneinträge, wenig Beachtung gefunden. Da gerade der Web 2.0 Inhalt für viele Bereiche besonders interessant ist, wird in dieser Bachelorarbeit das Webpage Cleaning Problem mit speziellem Fokus auf dessen Erkennung behandelt. Neben der Lösung des Webpage Cleanings mittels einer Implementierung eines Conditional Random Fields, wird insbesondere mit unterschiedlichen Merkmalsfunktionen bei der Modellierung des Conditional Random Fields experimentiert und deren Auswirkungen analysiert.



zurück zur Terminübersicht