La Délégation générale à la langue française et aux langues de France (DGLFLF) a lancé en 2016 et 2017 deux appels à projets « Langues et numérique » destinés à accompagner des initiatives innovantes dans le domaine des technologies du langage, qu'il s'agisse de bases de données en ligne, de traitement automatisé des langues ou de diverses applications mobiles, de nature à promouvoir la langue française, les langues de France et plus généralement le multilinguisme.
Pour présenter et mettre en valeur ce foisonnement de réalisations, la DGLFLF a organisé, en partenariat avec la Villette et la folie numérique, la conférence « Langues et numérique 2018 », grand événement de restitution des projets soutenus qui s’est tenu le 3 juillet 2018 à la Villette.
Vous pouvez dès à présent retrouver le contenu des sessions et tables rondes en vidéo sur la chaîne Dailymotion du Ministère de la Culture :
Ouverture de la conférence
L&N 2018 #1 - Ouverture de la conférence « Langues et numérique 2018 »
[00:00] Mot d’accueil par Marie Villette, directrice générale du parc et de la grande halle de la Villette
[00:48] Introduction par Angélique Delorme, conseillère au cabinet de la ministre de la culture en charge des questions européennes et internationales, francophonie et patrimoine
Le numérique dans le plan présidentiel pour la langue française et le plurilinguisme
[00:00] Loïc Depecker, délégué général à la langue française et aux langues de France
[21:17] Anne Tallineau, directrice générale déléguée de l’Institut français
[30:49] Questions du public
Expérimentation et recherche au service du français et de la diversité linguistique
Présidence : Olivier Baude, directeur d’Huma-Num (CNRS) et directeur scientifique de l’Observatoire des pratiques linguistiques, DGLFLF
[01:30] ParCoLaF : Plateforme de constitution et de diffusion de corpus parallèles pour les langues de France. Dejan Stosic. Consulter un texte en français et savoir comment une phrase donnée est traduite en occitan, ou vice versa, n’est possible aujourd’hui qu’en recourant aux éditions bilingues, assez rares sur le marché, ou en comparant manuellement l’original et sa traduction. L’objectif du projet ParCoLaF est de constituer une ressource textuelle électronique consultable gratuitement en ligne, comportant des textes en français et en occitan, où chaque phrase en langue source est mise en correspondance avec son équivalent en langue cible.
[08:24] Proto-TAO LSF. Michael Filhol. Constatant les besoins en contenu et en traduction en langue des signes, nous voulons concevoir la première interface de traduction assistée par ordinateur (TAO) pour la LSF. Le but est d'outiller les traducteurs avec une plateforme logicielle comme il en existe pour la traduction de texte à texte, intégrant outils lexicaux, concordanciers, mémoires de traduction, etc. Les particularités iconiques des langues des signes créent des besoins nouveaux pour la TAO, qu'il convient de caractériser.
[14:57] TraduXio. Philippe Lacour (représenté par Shanice Koday). TraduXio est un environnement numérique gratuit, de code source ouvert, basé Web, collaboratif, destiné à la traduction assistée par ordinateur de textes culturels. Son originalité est triple: la traduction est un transfert vers plusieurs langues (et non deux); la concordance multilingue permet de comparer les différentes versions d’un même texte; les utilisateurs peuvent collaborer en ligne. Né en 2006, le projet a reçu l’appui de l’Institut de la Francophonie numérique, de l’Unesco et du Ministère Français de la Culture.
[20:52] Orthaliseur. Delphine Bernhard (représentée par Pascale Erhart). Les dialectes alsaciens restent avant tout pratiqués à l'oral. Ils peuvent être mis à l'écrit mais leur graphie n'est pas normée : la scripturalisation peut donc énormément varier d'un auteur à l'autre. Une «orthographe alsacienne», appelée ORTHAL, a été proposée récemment par Edgar Zeidler et Danielle Crévenat-Werner. Dans le cadre du projet ORTHALISEUR, nous avons développé un premier prototype pour l'aide à l'écriture en ORTHAL. Cet outil détecte les erreurs potentielles et propose des suggestions de correction.
[25:27] Temporalité linguistique en LSF et français écrit : création d’un outil d’aide à l’acquisition de marqueurs temporels chez l’enfant sourd signeur. Caroline Bogliotti, Delphine Battistelli, Michael Filhol, Cyril Verrecchia. Ce projet a pour objet d’étude l’acquisition des marqueurs linguistiques de la temporalité chez l’enfant sourd. On peut observer que ces enfants ont des difficultés à maîtriser l’expression de la temporalité, que ce soit en LSF ou en français écrit. L’objectif de ce projet est donc de développer un premier prototype d’aide, par des exercices d’entraînement, à l’acquisition de ces notions et structurations que nécessite l’expression de la temporalité dans toutes les langues utilisées par les enfants sourds.
[31:44] LangNum br-fr. Annie Foret. Le projet LangNum-br-fr concerne la paire de langues français-breton et le numérique, dans un cadre pluridisciplinaire. Il regroupe des informaticiens spécialistes en traitement automatique des langues, des linguistes spécialistes des langues celtiques et des spécialistes des usages des TIC, en vue de valoriser des ressources pour le breton et avec une préoccupation pédagogique. Une analyse des besoins des apprenants en est la première étape avant la définition de traitements logiciels pour des meilleurs et nouveaux usages.
Recherche et développement : quels outils numériques au service des langues ?
Présidence : Thibault Grouas, mission Langues et numérique, DGLFLF
[2:52] ELRA. Khalid Choukri, Valérie Mapelli, Sohaila El Habrouk. Ce projet réalisé par ELDA a une double mission : l'actualisation de l'Inventaire des Ressources Linguistiques des Langues de France effectué en 2013, et l'étude des actuelles conditions de partage de ces ressources et leur négociation pour une mise à disposition auprès de la communauté des technologies de la langue pour leurs travaux de recherche et développement.
[07:59] Ortolang. Jean-Marie Pierrel. ORTOLANG est un équipement d’excellence validé dans le cadre des investissements d’avenir. Son but est de proposer une infrastructure en réseau offrant un réservoir pérenne de données (corpus, lexiques, terminologies, etc.) et d’outils sur la langue et son traitement, clairement disponibles et documentés, dans un double objectif de mutualisation et valorisation des ressources et outils de traitement du français et des langues de France accumulées par les laboratoires de recherche publics.
[16:26] Alibi. François Yvon. Le projet ALIBI (Alignements de Livres Bilingues) vise à construire des ressources numériques, prenant ici la forme d’œuvres littéraires alignées au niveau sous-phrastique avec une traduction en langue anglaise, qui serviront à alimenter un prototype de liseuse électronique bilingue augmentée, destiné à faciliter la lecture de livres en versions originale sur des dispositifs électroniques. La construction et la validation de ces alignements sera réalisée par une méthode innovante d’alignement divisif. Cinq nouvelles classiques ont été ainsi alignées manuellement.
[22:38] Fève. Claude de Loupy. Des systèmes de rédaction robotisée apparaissent actuellement partout dans le monde et produisent automatiquement des millions de textes. La sauvegarde et la promotion du français nécessite l’existence de robot rédacteurs en français. FÈVE diffusera des articles robot-rédigés en français sur les événements culturels de France et de l’étranger. Ces textes pourront être utilisés par de nombreux sites web pour diffuser une information culturelle utile et en français. Syllabs est l’un des principaux acteurs mondiaux du domaine de la robot-rédaction.
[29:07] SignEveil. Rémi Brun, Aurélien Laville. SignEveil est une application mobile interactive permettant de découvrir la Langue des Signes Française de manière ludique via un avatar 3D. Cette application accessible au grand public est le fruit d'années de recherche et développement, elle a été rendue possible grâce à la technologie de capture de mouvement unique de Mocaplab permettant d'enregistrer avec une grande fidélité la gestuelle (visage, yeux, doigts) d'un signeur pour restituer ses mouvements sur un personnage 3D.
[36:34] Questions du public
Corpus et terrain : constituer des ressources linguistiques par le numérique
L&N 2018 #5 - Corpus et terrain : constituer des ressources linguistiques par le numérique (session)
Présidence : Gaid Evenou, mission Langues de France, DGLFLF
[01:19] Atlas sonore des langues de France. Philippe Boula de Mareüil, Frédéric Vernier, Albert Rilliard. Ce travail, qui possède une dimension scientifique et patrimoniale, consiste à mettre en valeur la diversité linguistique de la France hexagonale et des Outre-mer, à travers des enregistrements recueillis sur le terrain et présentés via une carte interactive, avec leur transcription orthographique. Une soixantaine de langues régionales et non-territoriales, dont la moitié en Océanie, est ainsi illustrée : atlas.limsi.fr.
[07:41] Base de données du franco-provençal. Michel Bert, Sébastien Flavier, Claudine Fréchet. Le projet de Base de données du Franco-provençal (piloté par l’UMR DDL et l’Institut P. Gardette) vise à rendre disponible en ligne les données de l’Atlas linguistique du Lyonnais, collectées après la seconde guerre mondiale. La base hébergera également des données audio contemporaines. A ce jour, près de 200 cartes d’atlas ont été saisies, et plusieurs heures d’enregistrements sont consultables librement. Un ensemble d’outils est en cours de développement ; il permettra l’interrogation de ces ressources.
[15:38] Dictionnaire fondamental de la langue picarde. Olivier Engelaere, Alain Dawson. Ce dictionnaire français-picard, propose une (des) traduction(s) ou un (des) équivalent(s) picard des 1150 mots les plus fréquents de la langue française en distinguant les différents sens et usages, et en produisant des exemples en picard issus des sources écrites disponibles. L’objectif est de fournir un outil pédagogique fiable en vue de l’apprentissage et de l’usage du picard destiné aux néolocuteurs. Ce travail intègre les propositions de la Commission de néologie et de terminologie en matière de standardisation et d’orthographe du picard.
[22:23] VERA. Pierre-Aurélien Georges. Plusieurs campagnes d’enquêtes linguistiques de terrain auprès de patoisants ont permis d’obtenir quantité de vidéos en dialectes occitan et ligurien de France. Dans la mouvance Open Data, il s’agit de rendre ces contenus accessibles à tous via une plateforme web participative proposant diverses ressources (sous-titrages, transcriptions écrites, traductions en français, annotations linguistiques). Outre l’aspect patrimonial, ces données intéresseront différents publics : linguistes, enseignants de langue régionale, mais aussi historiens, sociologues, et plus généralement tous les internautes amoureux de la langue.
[29:18] LINE. Sophie Alby, Isabelle Léglise. Les langues de France parlées en Guyane souffrent d’un manque cruel de présence sur la toile. Ce projet a pour objectif de les visibiliser sur la toile en diffusant en particulier des ressources linguistiques et didactiques au travers d’un site Internet dédié aux langues de Guyane, à la description de leur situation multilingue, à leur outillage (grammaires, dictionnaires) et aux propositions de prise en compte de ces langues dans l'enseignement.
Des technologies pour rassembler et fédérer
L&N 2018 #6 - Des technologies pour rassembler et fédérer (session)
Présidence : Thibault Grouas, mission Langues et numérique, DGLFLF
[00:27] PLURAL. Bruno Guillaume, Alice Millour, Karen Fort, André Thibault. Le projet PLURAL (Production LUdique de Ressources Annotées pour les Langues de France) propose une plateforme participative en ligne pour construire des données linguistiques pour les langues peu dotées. La première version disponible concerne l’alsacien et s’appelle « Recettes de Grammaire ». Les contributeurs peuvent proposer de nouveaux textes (recettes ou anecdotes), proposer des variantes linguistiques (autre variété de l’alsacien ou autre graphie) et annoter les catégories grammaticales. Les corpus et outils produits seront redistribués librement.
[07:22] Hasard. Hélène Lafosse. Hasard est un dispositif de médiation multimédia au service du thème de l'interculturalité liée aux emprunts linguistiques du français. Le cœur du projet est de sensibiliser la jeune génération à notre « dette » culturelle pour favoriser le respect et l'accueil de l'étranger comme une source d'enrichissement. Cette intention prend appui sur le média traditionnel du conte musical, ici l'Amiral des mots de P. Aroneanu composé d'un corpus de 200 mots immigrés positivement dans notre dictionnaire et son adaptation innovante en jeu vidéo d'aventure réalisé de manière séquentielle et collaborative avec les publics cibles.
[15:07] LENN. Marie-Cécile Grimault, Mathieu Ducoudray. LENN (« lire » en breton) est une plateforme en ligne gratuite présentant les ouvrages parus en langue bretonne. Bilingue français/breton, le site mis à jour deux fois par an reprend les notices de la base interprofessionnelle Electre. Il permet de faire connaître et de valoriser la production en langue bretonne auprès du grand public. Le site incite par ailleurs les éditeurs à améliorer leur référencement en enrichissant des bases interprofessionnelles et ainsi valorise leurs productions auprès des acteurs du secteur.
Quels sont les enjeux sociétaux des ressources linguistiques?
L&N 2018 #7 - Quels sont les enjeux sociétaux des ressources linguistiques? (table ronde)
Présidence : Gilles Adda, ingénieur de recherche, laboratoire LIMSI-CNRS
[01:18] Néonaute. Emmanuel Cartier. Le projet Néonaute vise à doter les observateurs de la langue française d’un moteur de recherche s'appuyant sur la collection « Actualités » du dépôt légal du web conservée à la BnF depuis 2010. Trois cas d'utilisation seront développés liés à la néologie et à son suivi en corpus. Néonaute se présentera sous la forme d’une plateforme dotée de fonctionnalités de recherche avancée (exploitation de métadonnées, analyse linguistique automatique, visualisation interactive des résultats, recherche par liste de mots). Néonaute réunit deux laboratoires de recherche (LIPN-RCLN, LILPA) et la BnF.
[06:43] Nénufar. Hervé Bohbot, Francesca Frontini. Nénufar vise à rendre disponible en ligne des dictionnaires français de la première moitié du XXe siècle, en particulier le Petit Larousse. Le site du projet est destiné à la fois aux chercheurs et au grand public. Il permet actuellement la consultation, la comparaison et l'interrogation avancée des éditions de 1906 à 1924. Il sera régulièrement enrichi de nouvelles éditions. Les données sont disponibles au format XML-TEI et au format RDF Lemon-OntoLex pour le web de données.
[12:16] Juribase. Catherine Schnedecker, Jean-Paul Meyer. Le langage juridique, comme de nombreux langages spécialisés, n’est pas accessible au locuteur-lambda. Qui plus est, son emploi en français standard diffère, parfois grandement, de l’usage spécialisé ; les variations dans l’acception du lexique étant à ce point de vue le phénomène linguistique le plus emblématique de ces différences. Le projet JURIBASE, développé à l’Université de Strasbourg, propose de mettre à la disposition du public, une base de données lexicale, permettant de rendre compte de ces différences dans le domaine restreint du lexique du monde du travail.
[23:41] ROLF. Bénaset Dazéas. ROLF (Ressources et Outils pour les Langues de France) est un partenariat associant trois laboratoires et une institution de régulation linguistique en vue de la constitution partagée de ressources linguistiques pour trois langues faiblement dotées (alsacien, occitan et picard). Grâce aux standards développés (format, annotation), il aboutira à la publication d’un lexique flexionnel aligné et d’un clavier prédictif pour terminaux Android pour les trois langues.
[32:27] Synthèse vocale du breton. Olier ar Mogn. Afin de continuer à doter la langue bretonne des outils nécessaires pour réduire la fracture numérique avec les langues de grande diffusion, L'Office public de la langue bretonne se mobilise pour la réalisation d'un logiciel de synthèse vocale pour le breton. Le projet en est encore au stade de la conception et devrait entrer dans sa phase de conception à l’automne.
[37:39] Questions du public
Des outils au service de la communauté pour le français et le multilinguisme
L&N 2018 #8 - Des outils au service de la communauté pour le français et le multilinguisme (session)
Présidence : Mathilde Hutin, mission Langues et numérique, DGLFLF
[00:26] Donnez votre français à la science ! Julie Glikman, Jean-Philippe Goldman, Camille Fauth, Christophe Benzitoun, Mathieu Avanzi, Philippe Boula de Mareüil, Yves Scherrer, Rémy Gerbet, Antoine Lamielle. « Donnez votre français à la science » est une plateforme collaborative gratuite destinée à documenter la variation du français parlé et à la faire connaître à la communauté scientifique comme au grand public. Le site permet de construire et de partager des formulaires d’enquêtes linguistiques avec une fonctionnalité unique en son genre : l’enregistrement de la voix. Il comporte également un espace blog pour documenter les analyses et diffuser les résultats des enquêtes.
[06:47] Métissages Artistiques. Christine Coulange, Hugo Mir. Sisygambis, en résidence de création de trois ans à Mayotte - avec le soutien de la Direction des Affaires Culturelles de Mayotte - développe des projets multimédias entre la Méditerranée et l’océan Indien : web-documentaire, films, ateliers d’écriture et audioguide. Autant d’études et d’étapes vers la conception d’une plateforme collaborative multilingue, dont le cahier des charges est en cours d’écriture avec le soutien de la DGLFLF, la Chaire Unesco-ITEN, l’Université Paris 8 Idéfi-CréaTIC, l’Université de Mayotte (CUFR) et le MuMa-Musée de Mayotte.
[13:58] TAJ : Traitement automatisé de la jurisprudence. Guillaume Zambrano. Le projet TAJ vise à créer une intelligence juridique artificielle, capable d’effectuer des prédictions jurisprudentielles à partir de bases de données massives. La connaissance de la jurisprudence passée permet d’anticiper les décisions judiciaires futures. En pratique, TAJ peut faciliter l’accès au droit de l’ensemble des citoyens, pour fournir en ligne, instantanément et gratuitement, des informations juridiques facilement compréhensibles, précises, personnalisées et fiables, permettant d’apprécier l’opportunité de consulter un avocat, et la probabilité de gagner un procès.
[22:16] Typannot. Dominique Boutet, Claire Danet, Patrick Doan. Les 140 Langues des signes dans le monde n’ont pas de système de transcription efficient. Or comprendre une langue, suppose d’être au plus près de ses formes. Typannot, en tant que système de transcription, propose une approche centrée sur les formes gestuelles et non pas basée sur la seule traduction en Français. Nous développons une série de polices de caractères et de descripteurs formels. En accès libre, ces polices permettent de transcrire tous les corpus des LS et de découvrir les signes de manière ludique par le geste.
Partager la page