epub @ SUB HH

   
 
 

Eingang zum Volltext in OPUS


Hinweis zum Urheberrecht

Monographie zugänglich unter
URL: https://epub.sub.uni-hamburg.de/epub/volltexte/campus/2015/40103/


Automatische phonetische Annotation : ein HMM-basierter Aligner für das Lëtzebuergesche

Gaal, Syxtus

pdf-Format:
Dokument 1.pdf (2.314 KB)


Zugriffsbeschränkung: nur innerhalb des Universitäts-Campus
DDC-Sachgruppe: Informatik
Dokumentart: Monographie
ISBN: 978-3-8428-2111-8
Sprache: Deutsch
Erstellungsjahr: 2011
Publikationsdatum: 05.05.2015
Kurzfassung auf Deutsch: Einleitung: Die Spracherkennungstechnologie hat sich in den letzten Jahrzehnten stetig entwickelt. Der Umfang des erkannten Wortschatzes, die Zuverlässigkeit sowie die Zugänglichkeit der Spracherkennungssysteme ist konstant gestiegen. Diese Technologie, die es dem Menschen ermöglicht, Sprache als Eingabemedium zu benutzen, ist inzwischen allgegenwärtig - sie ist Teil der meisten gängigen Betriebssysteme und eingebaut in viele Mobiltelefone. Spracherkennung ist sehr populär als Teil von Dialogsystemen - Applikationen, die dem Benutzer die Ein- und Ausgabe von Daten über das Telefon erlauben. Sprachdialogsysteme werden eingesetzt, um Hotlines zu entlasten und dem Kunden einen zügigeren, besser erreichbaren Service zu bieten. Die Forschung sowie die steigende Rechenleistung waren die wichtigsten Faktoren, die zu dieser Entwicklung beigetragen haben. Sie haben es ermöglicht, immer zuverlässigere Erkenner zu bauen, die immer mehr Trainingsdaten bearbeiten konnten. Dank Sprachdatensammlungen (auch Korpora genannt) die nicht nur eine, sondern eine Vielfalt von Alters-, Geschlechts, und Dialektgruppen repräsentieren, können robuste und flexible Spracherkennungssysteme entwickelt werden. Sie sind immer weniger von den Eigenschaften des Sprechers bzw. seiner akustischen Umgebung abhängig. Diese Entwicklung verlief jedoch nicht für alle Sprachen gleichmäßig. Obwohl die Forschung die Technologie vorantrieb, waren die Sprachkorpora für nur wenige, große Sprachen verfügbar. Dies hat sich mit der Zeit teilweise ausgeglichen, so dass Daten auch für kleinere Sprechergruppen vorhanden sind. Die Suche im Katalog des Linguistic Data Consortium zeigt eine Sammlung unterschiedlicher Korpora für 62 Sprachen. Die Verteilung ist jedoch ungleichmäßig - für Deutsch und Französisch sind in der Sammlung jeweils sechs und vier Korpora von Telefonaufnahmen vorhanden. Bei kleineren ist das nicht mehr der Fall. Für Ungarisch wurde bei dem LDC ein Korpus angeboten, für Niederländisch keins. Luxemburgisch ist dagegen eine der Sprachen, für die noch keine Korpora existieren. Eine Sammlung von Telefongesprächen wurde in Luxemburg im Rahmen des SpeechDat-Projekts aufgenommen. Sie enthält jedoch lediglich deutschsprachige Aufnahmen. Die Erstellung von phonetisch annotierten Sprachkorpora ist aufwendig und kann viel manuelle Nacharbeitung erfordern. Erfahrungswerte zeigen, dass der Aufwand für die Annotation den Aufwand für die Aufnahme um das mehrfache übersteigt. Nach Gillis kann das Verhältnis von Annotationszeit zur Aufnahmezeit von 35:1 bis zu 60:1 betragen. Demnach kann die Bearbeitung von einer Minute eines Audiosignals bis zu einer Stunde dauern. Die Aufgabe ist es, einen Aligner zu entwickeln, der die Zeit und Kosten für die Entwicklung eines Sprachkorpuses des Luxemburgischen drastisch reduzieren soll. Der Aligner ist ein Werkzeug, das eine Sprachaufnahme sowie eine dazugehörige phonetische Transkription verwendet, um die vorgegebenen Sprachlaute, die Phoneme, auf der Zeitachse zu 'alignieren'. Das Alignieren ist ein Prozess, in dem die vorgegebene phonetische Transkription mit Zeitstempeln für den Anfang und das Ende eines jeden Phonems versehen wird. Der Aligner akzeptiert als Eingabe eine Sprachaufnahme, die dazugehörige orthographische Transkription sowie ein Aussprachelexikon mit dem verwendeten Wortschatz. Als Ausgabe liefert er eine Datei, die eine mit Zeitstempeln versehene phonetische Transkription der Äußerung enthält. Diese Transkription kann danach manuell geprüft, und, falls die Alignierung fehlerfrei verlaufen ist, als eine Komponente eines Spracherkennungs- oder Synthesesystems genutzt werden. Die Aufgabe stellt somit eine Variante des ‚Henne-Ei-Problems’ dar. Um einen Aligner für das Luxemburgische zu entwickeln, sind phonetisch annotierte und alignierte Sprachdaten erforderlich. Andererseits wird für die Erstellung solcher Sprachdaten ein Aligner benötigt. Das manuelle Alignieren der Trainigsdaten ist möglich, jedoch im Zeitrahmen dieser Arbeit nicht realisierbar. Um ein Aligner zu entwickeln, der die Aufnahmen unterschiedlicher Sprecher analysieren kann, sind Trainigsdaten aus unterschiedlicher Sprechergruppen notwendig. Hierfür wird das Gilles-Korpus sowie aus dem 6000-Mots-Korpus eingesetzt. Da es sich hierbei um reine Sprachaufnahmen handelt, werden diese zuerst manuell phonetisch annotiert. Die Annotierung erfolgt gleichzeitig im deutschen und luxemburgischen Lautsystem. Danach folgt eine automatische Alignierung mit dem deutschen Aligner, der von Stefan Rapp am Institut für Maschinelle Sprachverarbeitung der Universität Stuttgart entwickelt wurde. Die deutschen Phonemmodelle werden um die für das Luxemburgische typischen Sprachphänomene (siehe Abschnitt 2.7) ergänzt und in den Aligner integriert. Der deutsche und der luxemburgische Aligner werden auf einem Testdatensatz evaluiert und die Testergebnisse automatisch ausgewertet. Ziel dieser Arbeit ist es einen Aligner zu entwickeln, der produktiv für die Entwicklung eines lëtzebuergeschen Korpus eingesetzt werden kann. Das neue Programm soll die Alignierung mindestens so präzise durchführen wie die deutsche Version. Die Evaluierung soll feststellen, inwiefern das gelungen ist.Inhaltsverzeichnis:Inhaltsverzeichnis: 1.Einleitung5 1.1Motivation5 1.2Aufgabenstellung5 2.Lëtzebuergesch 6 2.1Geschichte Luxemburgs6 2.2Luxemburgisch7 2.3Dialekte8 2.4Koiné8 2.5Phonetik der luxemburgischen Koiné8 2.6Phonetik des Deutschen9 2.7Gegenüberstellung des Deutschen und des Lëtzebuergeschen11 3.Phonetische Alignierung als Erkennungsproblem12 3.1Toolgestütze Spracherkennung mit dem Aligner12 3.2Funktionsweise12 3.3Phoneminventar und Aussprachelexikon13 3.4Abbildung der lëtzebuergeschen Phoneme auf deutsche Sprachlaute14 4.Aufbereitung der Sprachdaten14 4.1Vorhandene Sprachdaten14 4.2Aufteilung der Datensätze16 4.3Vorbereitung der Daten - Gilles-Korpus16 4.3.1Orthographische Transkription17 4.3.2Erstellung eines Aussprachelexikons18 4.3.3Generierung der phonetischen Transkriptionen19 4.3.4Korpusstruktur21 4.4Vorbereitung der Daten - das 6000-Wierder-Korpus22 4.4.1Bereinigung des Datensatzes22 4.4.2Aufteilung für Test und Training23 4.5Zusammenfassung23 5.Implementierung23 5.1Alignieren der phonetischen Annotation mithilfe des deutschen Aligners24 5.2Alignierte phonetische Annotation - Ersetzung der deutschen Phonemmarkierungen mit den lëtzebuergeschen24 5.3Erstellung der Hidden-Markov-Modelle für lëtzebuergesche Phoneme24 5.4Integration der neuen Modelle in den Aligner26 5.5Anpassung der Vorverarbeitungskomponenten des Aligners26 5.6Zusammenfassung27 6.Evaluierung27 6.1Vergleich der Aligner27 6.2Programm zur automatischen Evaluierung der Ergebnisse27 6.3Korrektur und zweiter Vergleich28 6.4Manuelle und automatische Alignierung29 6.5Ergebnisse29 7.Zusammenfassung und zukünftige Forschung30 7.1Erweiterung der Funktionalität des Aligners31 7.2Entwicklung eines lëtzebuergschen Aligners32 7.3Entwicklung eines Sprachkorpus für Lëtzebuergesch32 AGilles-Korpus: Fragebuch Lëtzebuergesch36 BDie Perl-Funktionssammlung ConversionLibrary.pm38Textprobe:Textprobe: Kapitel 2.2, Luxemburgisch: Nach Gilles ist das Lëtzebuergesche (Luxemburgische) aus dem westmosel-fränkischen entstanden. Es kommt aus der westfränkischer Bucht hervor - einer Region, die durch die fränkischen Expansionsbewegungen bis ins Pariser Becken gekennzeichneten wurde. Eine umfassende Analyse zu dem Thema ist u.a. bei Bruch zu finden. Heutzutage stehen Deutsch, Französisch und Lëtzebuergesch in einem triglossischen Verhältnis zueinander. Lëtzebuergesch ist dabei die Muttersprache; sie wird als erste gelernt und am häufigsten verwendet. Die Verwendung beschränkt sich nicht auf die Gespräche im Alltag, sondern ist in den Medien und in der Politik präsent. Die beiden weiteren Sprachen werden erst in der Schule gelernt und werden als Fremdsprachen wahrgenommen. In der schriftlichen Domäne kommen alle drei Sprachen vor. Das Lëtzebuergesche wird hauptsächlich im privaten und halböffentlichen Kontext verwendet. In den anderen Bereichen kommen alle drei Sprachen vor, wobei der lëtzebuergesche Anteil in der Literatur konstant steigt. Die Tageszeitungen sind zwei- oder dreisprachig. Die Texte des öffentlichen Bereichs werden entweder auf Deutsch oder Französisch verfasst. Für Gesetzestexte wird aus historischen Gründen Französisch verwendet. Nach Gilles ist Luxemburg, was den mündlichen Sprachgebrauch angeht, strikt einsprachig. Ein domänengebundener Wechsel in das Deutsche oder das Französische findet nicht statt. Diese Tatsache tritt unabhängig von Bevölkerungsschicht und Altersstufe der Sprecher zu. Das Code Switching, das integraler Bestandteil der mehrsprachigen Gesellschaft in der Schweiz und in Belgien ist, findet in Luxemburg nicht statt. Die Sprache wurde in die Norm 639 der International Organization for Standardization aufgenommen, die zwei- bzw. dreistellige Sprachenkürzel für den Einsatz in der Datenverarbeitung definiert. Die offizielle ISO-639-1-Abkürzung für Lëtzebuergsch ist lb. In dem Standard ISO-639-2 wurde diese Bezeichnung auf ltz erweitert. In dieser Arbeit wird jedoch die Locale-Bezeichnung lb-LU (Luxemburgisch, gesprochen in Luxemburg) verwendet, da sich diese Notation in kommerziellen Spracherkennern durchgesetzt hat. 2.3, Dialekte: Das Moselfränkische wird in Luxemburg, Teilen von Deutschland sowie kleinen Gebieten in Belgien und Frankreich gesprochen. Es ist jedoch nicht homogen und kann in mehrere Varietäten kategorisiert werden. Gilles listet neun Varietäten auf, die in 16 Regionen zu finden sind, drei davon in Luxemburg. Eine grobe Aufteilung der Luxemburger Dialekte befindet sich bei Gilles. Demnach kann das Luxemburgische entlang der geographischen Regionen in vier Dialektgruppen unterteilt werden: Zentrum (Luxemburg-Stadt und Alzettetal); Süden (rund um Esch-sur-Alzette); Norden (Ösling); Osten (das Gebiet zwischen Grewenmacher und Vianden entlang der östlichen Staatsgrenze). 2.4, Koiné: Der Begriff 'Koiné' stammt ursprünglich aus dem Griechischen und wird verwendet, um eine Sprache zu beschreiben, die aus einer Mischung unterschiedlicher Dialekte entstanden ist. Die Koinéisierung ist das Verschmelzen von Dialekten zu einer überregionalen Sprachvarietät. Das klassische Griechisch ist vermutlich durch das Auftreten dieses Prozesses entstanden. Dieser Begriff wird auch als Bezeichnung der überregionalen Varietät des Luxemburgischen verwendet. Es gibt unterschiedliche Meinungen, wie die luxemburgische Koiné entstanden ist. Man nimmt an, dass sie entweder als eine diatopische Verallgemeinerung, oder als Produkt der Koinéisierung zu betrachten ist. Für eine ausführliche Diskussion wird auf Gilles verwiesen. Es herrscht jedoch relative Einigkeit darüber, dass die Koiné am häufigsten im Zentrum und im Süden des Landes gesprochen wird und sich eher von da aus auf die restlichen Länderteile ausgebreitet hat. Da sie als die allgemeine und universal verständliche Form des Luxemburgischen gilt, wird sich diese Arbeit auf der Phonetik dieser Dialektvarietät fokussieren.


Home | Suchen | Browsen | Admin
Fragen und Anregungen an pflicht@sub.uni-hamburg.de
epub2 - Letzte Änderung: 19.02.2024