Poster
OA Policy
French

L’effet du « prompting » sur la traduction des dialectes arabes transcrits en Arabizi

Presented atJournée d'études AFIA-ATALA, Technologies linguistiques pour les langues peu dotées, Paris, 12.12.2025
Presentation date2025-12-12
Abstract

Bien que l’on compte environ 420 millions de locuteurs arabophones dans le monde, un paradoxe linguistique intrigant s’impose : l’arabe standard, la forme standardisée de la langue, n’est la langue maternelle d’aucun locuteur. Les arabophones s’expriment quotidiennement à travers leurs propres formes vernaculaires régionales, des hybrides linguistiques façonnés par l’arabe, les langues historiques de chaque région, et les langues coloniales, et plus récemment l’anglais. Ces dialectes, produits de dynamiques géographiques, culturelles et sociopolitiques, peuvent varier considérablement, parfois même à l’intérieur d’un même pays, donnant lieu à une mosaïque linguistique riche de plus de soixante variétés distinctes. À une époque de mutations technologiques rapides, la communication continue d’évoluer à mesure que de nouveaux phénomènes linguistiques émergent. L’un des plus emblématiques est l’Arabizi (fusion de « Arabic » et « Englizi », le mot arabe pour anglais), une forme hybride d’arabe qui intègre des caractères latins et des chiffres utilisés comme substituts phonétiques(Allehaiby, 2013). L’Arabizi, omniprésent sur les réseaux sociaux et les espaces numériques, constitue un mode d’expression informel, dynamique et fortement contextualisé. Toutefois, il soulève des défis majeurs pour la traduction automatique : son absence de normalisation, l’usage de caractères alphanumériques et la densité de références culturelles en font une forme linguistique instable et difficilement modélisable. Par exemple, la transcription de la phrase en arabe standard أريد أن أكلّمك بموضوع (Je veux te parler de quelque chose) peut être en Arabizi « badde e7kik bi mawdu3 » en arabe levantin, ou « rani hab nahdar m3ak f wahd sujet » en arabe algérien. Malgré son large usage dans la communication numérique et l’intérêt croissant de la recherche pour les langues peu dotées et les registres informels, l’Arabizi demeure un territoire largement inexploré dans le domaine du traitement automatique de la langue(Bies et al., 2014; Harrat et al., 2019). Sa nature hautement colloquiale, sa variabilité inter- et intra-dialectale, l’absence de standardisation, ainsi que la rareté des ressources annotées constituent tous des obstacles technologiques. Les modèles de langue de grande taille (LLM) représentent aujourd’hui une piste de recherche prometteuse pour l’étude et la traduction des langues peu dotées(Zhong et al., 2024; Chang et al., 2025). En effet, leur entraînement sur des volumes massifs de données multilingues leur donne une capacité d’adaptation et de généralisation qui ouvre de nouvelles perspectives face au manque de ressources annotées dans ces langues.Contrairement aux approches traditionnelles qui nécessitaient de grands corpus parallèles, les LLM permettent d’exploiter des stratégies de « prompting » et d’apprentissage en contexte pour générer des traductions, même dans le contexte des langues peu dotées.Cette recherche, fondée sur Al Almaoui et al.(2025), a deux objectifs. Dans un premier temps, nous décrirons la constitution de corpus représentatifs pour trois grands dialectes arabes, le corpus parallèle AladdinBench. Dans un second temps, nous mènerons une étude comparative de la traduction de l’Arabizi à l’aide de différentes techniques de « prompting ».

Keywords
  • Arabizi
  • Dialectes Arabes
  • Corpus
Citation (ISO format)
AL ALMAOUI, Perla, BOUILLON, Pierrette, HENGCHEN, Simon. L’effet du « prompting » sur la traduction des dialectes arabes transcrits en Arabizi. In: Journée d’études AFIA-ATALA. Paris. 2025.
Main files (1)
Poster
accessLevelPublic
Identifiers
  • PID : unige:191262
19views
21downloads

Technical informations

Creation02/03/2026 9:10:06 AM
First validation02/05/2026 8:28:52 AM
Update time02/05/2026 8:28:52 AM
Status update02/05/2026 8:28:52 AM
Last indexation02/05/2026 8:28:53 AM
All rights reserved by Archive ouverte UNIGE and the University of GenevaunigeBlack