Phonetic Distance Measures for the Induction of a Translation Lexicon for Dialects - A Study on Bernese Swiss German and Standard German

Scherrer, Yves

Le sujet de ce mémoire est en rapport avec deux directions de recherche majeures en linguistique informatique. D'une part, le domaine de la traduction automatique nécessite des données plurilingues. D'autre part, les outils informatiques sont de plus en plus sollicités pour les recherches descriptives en dialectologie. Ce travail propose l'utilisation de méthodes développées en dialectologie pour construire un lexique bilingue, partie essentielle de tout système de traduction automatique. Ce choix novateur est motivé par la paire de langues au coeur de nos recherches, à savoir un dialecte alémanique et la variété standard de l'allemand. A la base de tout système de traduction automatique se trouve un dictionnaire bilingue associant des mots des deux langues entre lesquelles la traduction s'opère. Ces lexiques bilingues peuvent être construits à la main, ou être dérivés de matériaux linguistiques de manière automatique. L'approche standard de construction automatique nécessite des corpus parallèles – des textes traduits par des traducteurs humains – pour y chercher des similarités structurelles entre les phrases et ainsi extraire des paires de mots. L'application de ces méthodes à des dialectes (ou à d'autres paires de langue formant une diglossie) n'est pas possible à cause de l'absence de textes parallèles de taille suffisante. En revanche, la relative proximité linguistique des deux variétés d'allemand étudiées nous a amené à considérer d'autres méthodes. D'une part, nous nous sommes inspirés de travaux qui ont montré qu'il était possible de détecter des paires de mots apparentées dans des textes de langues proches. Ces méthodes se basent uniquement sur la structure phonétique ou graphémique des mots et ne nécessitent donc pas de corpus parallèles structurés en paires de phrases. D'autre part, étant donné la paire de langues choisie, nous nous sommes tournés vers des études dialectométriques. Ce champ d'études s'est donné comme objectif de mesurer quantitativement les similarités dialectales à partir de transcriptions de mots et de données phonétiques obtenues lors d'enquêtes de terrain. Ce mémoire fait une utilisation originale de ces résultats. Au lieu d'utiliser ces méthodes pour déterminer la similarité dialectale (ou la propriété d'être des mots apparentés) de deux mots donnés par avance, nous utilisons ces méthodes pour générer un dictionnaire bilingue. En d'autres termes, étant donné un mot en dialecte bernois, nous utilisons des méthodes de calcul de similarité pour générer des mots allemands similaires. Ainsi, nous obtenons des correspondances de mots sans avoir recours à un corpus parallèle. Le modèle développé est caractérisé par une architecture à deux niveaux. Dans le premier niveau, on part d'un mot dialectal et on le transforme, en modifiant certaines lettres selon les principes dictés par la mesure de similarité choisie. Pour un mot dialectal donné, on génère ainsi 5000 mots-candidats, dont chacun a subi une transformation différente. Comme les mesures de similarité ont des connaissances très variables de la structure phonétique des mots, seulement une petite partie de ces mots-candidats constituent effectivement des mots allemands. Il fallait donc ajouter un deuxième niveau afin de filtrer ces mots-candidats. Ce filtre est constitué d'une simple liste de mots allemands, telle qu'on peut l'extraire d'un dictionnaire monolingue ou même d'un grand texte en langue allemande. A l'aide de ce filtre, on réduit les 5000 mots-candidats à 5-20 mots-candidats dont on a la garantie qu'ils existent en allemand standard. A part le développement de cette architecture, l'apport principal de ce mémoire est l'évaluation comparative de différentes mesures de similarité. Certaines de ces mesures sont déjà décrites dans la littérature de dialectométrie ou de cognate detection, d'autres sont nouvelles. Notre modèle ne tient pas compte d'informations syntaxiques pourtant utiles lors de la construction de lexiques. Cette limitation est volontaire et découle de notre choix des langues. Nos résultats montrent qu'il n'est pas justifié d'exclure des dialectes et des langues à faible diffusion des recherches en linguistique informatique.

Archive ouverte UNIGE

Phonetic Distance Measures for the Induction of a Translation Lexicon for Dialects - A Study on Bernese Swiss German and Standard German

Technical informations