Colloque « Linguistique, traduction et humanités numériques à l’ère de l’intelligence artificielle » @ UQAC

À l’heure où l’intelligence artificielle (IA) redéfinit en profondeur notre rapport au langage, au texte et à la connaissance, ce colloque se propose d’examiner les mutations que l’IA provoque dans le champ des humanités numériques, en mettant l’accent sur les enjeux spécifiques à la linguistique et à la traduction. L’essor fulgurant que l’IA a eu sur la traduction automatique (TA) et le traitement automatique des langues (TAL) ouvre de nouvelles perspectives pour l’analyse et la compréhension des données textuelles, qu’il s’agisse de corpus littéraires, historiques, philosophiques ou artistiques. Ces outils permettent aux membres de la communauté scientifique d’extraire des informations inédites à partir de vastes ensembles de documents, facilitant ainsi la production de nouveaux savoirs. Toutefois, ces avancées s’accompagnent de défis majeurs, qu’ils soient d’ordre technique, méthodologique et éthique.

Ce colloque offre un espace de dialogue entre théorie et pratique avec un large spectre de thématiques : développements d’outils par l’entremise de démos (archivage, annotation de corpus, fouille de textes, extraction multilingue…), mais aussi diversité des usages des grands modèles de langage (LLM) (embeddings, classification automatique, analyse linguistique…), évaluation de ces derniers ainsi que les biais que leurs usages peuvent induire.

Cette rencontre scientifique est organisée par le centre interuniversitaire sur les humanités numériques (CRIHN) avec le soutien des Fonds de recherche du Québec et de l’Université du Québec à Chicoutimi, sous la direction de nos membres Vincent Arnaud (Professeur agrégé en linguistique à l’Université du Québec à Chicoutimi), Audrey Canalès (Professeure adjointe en traduction à l’Université de Sherbrooke) et Michael E. Sinatra (Directeur de notre centre).

[Reportage sur le colloque à Radio-Canada.]

[Photo de tous les participants et du vice-recteur Mohamed Bouazara avant le début du colloque.]

Programme

Jeudi 25 septembre 2025

  • 8 h 30 – 9 h : Accueil – local : P0-5000 (Auditorium)
    • Mots de bienvenue de Mohamed Bouazara, vice-recteur à la recherche, à la création et à l’innovation de l’Université du Québec à Chicoutimi et des organisateurs Vincent Arnaud (Université du Québec à Chicoutimi, Canada) et Michael Sinatra (Université de Montréal, Canada)
  • 9 h – 10 h : Première conférence plénière – Local : P0-5000 (Auditorium)
    • Aurélie Névéol (Laboratoire Interdisciplinaire des Sciences du Numérique, CNRS, France) Pour une évaluation des impacts de la traduction automatique (« Les grands modèles de langues ont entraîné un changement de paradigme dans le traitement automatique des langues en mettent à disposition du grand public des outils qui génèrent des textes de qualité dans des langues bien dotées. Dans cet exposé, je discuterai de l’impact de cette évolution sur les évaluations menées. J’expliquerai comment les caractéristiques des grands modèles de langues peuvent rendre difficile le déploiement efficace des pratiques d’évaluation classiques. Je parlerai également de l’opportunité d’une évaluation au-delà de la performance des tâches en discutant de l’importance de l’impact sociétal et environnemental pour mener des évaluations complètes, en particulier dans le domaine de la traduction automatique. ») [vidéo de la conférence]
  • 10 h – 10 h 30 : Pause-santé & changement de salle
  • 10 h 30 – 12 h 15 : Séance 1 (35 min × 3) – local : P0-7500 — Président de séance : Vincent Arnaud (Université du Québec à Chicoutimi, Canada)
    • Éric Poirier (Université du Québec à Trois-Rivières, Canada) Traduction automatique explicable : vers de nouveaux critères d’évaluation interdisciplinaires (« Notre projet vise à définir de nouveaux critères d’évaluation de la traduction automatique (TA) qui s’appuient sur la mise en commun interdisciplinaire des meilleures pratiques en TALN et en traductologie grâce à des analyses supervisées et non supervisées menées sur des corpus parallèles bilingues. L’application de ces critères sera explicitée puis communiquée aux utilisateurs grâce à des notes de traduction ou à des dispositifs graphiques juxtaposés aux traductions. Notre projet favorisera ainsi l’adaptation et l’interprétabilité des solutions de traduction proposées par les IA génératives, une utilisation transparente de celles-ci et une meilleure garantie contre les erreurs (plus grande fiabilité de la traduction et de leur évaluation). »)
    • Maryam Akramifard (Université Laval, Canada) Les limites de la TA et de la TAO dans la traduction des termes de fantaisie : étude sémio-lexicale du Seigneur des Anneaux (« La fantaisie, par sa richesse lexicale et sa créativité, pose de nombreux défis à la traduction. Cette communication explore les limites de la traduction automatique (TA) et assistée par ordinateur (TAO) dans le traitement des termes imaginaires, à partir d’un corpus extrait du « Seigneur des Anneaux », traduit en français et en persan. À travers une analyse sémio-lexicale, appuyée par les théories de Greimas, Eco et Lévi-Strauss, nous comparons les équivalents proposés par des traducteurs humains et par les outils numériques. L’étude met en lumière les faiblesses des technologies actuelles face à la charge symbolique et culturelle de ces néologismes, et propose des pistes d’amélioration pour leur traitement dans un cadre traductologique. »)
    • Perrine Schumacher (Université de Liège, Belgique) Les grandes promesses de l’IA à l’épreuve de la traduction : entre biais algorithmiques et balbutiements réglementaires (« Cette présentation s’inscrit dans le prolongement de travaux doctoraux consacrés à l’analyse de la post-édition de traduction automatique (TA) en contexte universitaire. Dans cette communication, il s’agit d’explorer les limites et les enjeux que posent les outils de TA et les outils génératifs lorsqu’ils sont utilisés à des fins de traduction. À partir d’exemples, nous souhaitons mettre en lumière plusieurs biais algorithmiques de l’IA, ainsi que leurs effets sur la qualité linguistique des textes générés. Outre ces enjeux qualitatifs, une réflexion sera engagée sur les différents enjeux juridiques et cognitifs que soulève aujourd’hui l’utilisation croissante de l’IA dans le champ de la traduction et au-delà. »)
  • 12 h 15 – 13 h 45 : Dîner (à la cafétéria, pour les personnes invitées)
  • 13 h 45 – 15 h 30 : Séance 2 (35 min × 3) – local : P0-7500 — Président de séance : Emmanuel Château-Dutier (Université de Montréal, Canada)
    • Simon Girard (Université du Québec à Chicoutimi, Canada) De BALSAC à CopaQ : pour un développement collaboratif (et génératif !) des données généalogiques au Québec (« Le fichier de population BALSAC est une base de données numériques construite à partir des actes de l’état civil du Québec. Ces actes ont été informatisés et reliés entre eux grâce à une méthodologie de jumelage des données nominatives permettant la reconstitution automatique des familles et des lignées généalogiques sur quatre siècles, et ce, dans l’ensemble des régions du territoire québécois. Jusqu’à présent, le fichier de population a toujours eu une portée uniquement académique. Cependant, dans le cadre du développement de la Cohorte participative du Québec (CopaQ), une partie des données BALSAC peut enfin être consultée en ligne. De plus, nous avons récemment lancé un grand chantier visant à utiliser de grands modèles de langage génératifs pour intégrer des données contemporaines à la base de données et ainsi, grandement, augmenter la couverture généalogique de notre population. »)
    • Guilherme D. Garcia (Université Laval, Canada) Modéliser l’incertitude : une approche bayésienne des données textuelles (« À l’ère de l’intelligence artificielle et des grands modèles de langage, nous sommes confrontés à des outils capables de produire du texte avec une fluidité impressionnante, mais dont le fonctionnement reste largement opaque. Pour les humanités numériques, où les corpus sont souvent plus restreints, hétérogènes et marqués par l’incertitude (erreurs d’OCR, variation historique, données partielles), il est essentiel de disposer de méthodes transparentes et interprétables. La statistique bayésienne offre justement cette possibilité : elle nous permet de modéliser explicitement l’incertitude, d’intégrer plusieurs sources d’information et d’éviter les conclusions trop rapides fondées sur des tests multiples. Elle nous permet aussi d’éviter certaines méthodes de correction lors des comparaisons multiples, une situation commune dans la recherche quantitative. »)
    • Kevin Bouchard (Université du Québec à Chicoutimi, Canada) Ces machines qui parlent sans savoir : optimisme et limites des LLM (« Les grands modèles de langage (LLM) marquent une rupture technologique majeure, transformant la manière dont nous interagissons avec l’information, écrivons et programmons. Toutefois, derrière ces prouesses se cachent des limites fondamentales. Cette présentation examine, à la fois, les apports concrets des LLM et leurs lacunes profondes : absence de compréhension sémantique, raisonnement approximatif, opacité des réponses, biais persistants. En évitant l’écueil du sensationnalisme, nous proposerons une réflexion critique sur ce que ces modèles sont – et surtout, ce qu’ils ne sont pas. Comprendre ces limites est essentiel pour encadrer leur usage et imaginer des systèmes véritablement intelligents. »)
  • 15 h 30 – 16 h : Pause- santé & changement de salle
  • 16 h – 17 h : Deuxième conférence plénière – local : P0-5000 (Auditorium)
    • Christophe Coupé (University of Hong Kong, Hong Kong) Explorer les œuvres littéraires à l’aide de grands modèles de langage (« Le traitement du langage naturel connaît depuis quelques années une véritable révolution, liée en particulier à l’arrivée des grands modèles de langage. La capacité de ces derniers à analyser et « comprendre » un texte dans sa complexité contraste avec des approches plus anciennes requérant un appauvrissement de la structure linguistique pour pouvoir être déployées (on peut penser ici à la modélisation thématique qui aborde un texte comme un « sac de mots » dépourvu d’organisation syntaxique). Ces progrès définissent un nouveau et vaste terrain d’exploration dans le domaine littéraire, et suggèrent la possibilité d’une lecture « de près » (marquée par une analyse en profondeur du texte) de vastes ensembles de documents. Dans ce contexte, nous présenterons plusieurs analyses complémentaires visant à mettre au jour la structure narrative d’une histoire à l’aide d’un grand modèle de langage. À l’aide d’une série de prompts, nous définirons une approche quantitative de l’agentivité, de l’engagement cognitif et de l’engagement émotionnel d’un personnage. Nous étudierons en particulier les relations entre ces dimensions au cours du temps, avec l’objectif de découvrir de possibles rapports causaux à différentes échelles de temps. ») [vidéo de la conférence]

Vendredi 26 septembre 2025

  • 9 h – 10 h : Troisième conférence plénière – local : P0-5000 (Auditorium)
    • Jean-Philippe Magué (École normale supérieure de Lyon, France) Compétences sociolinguistiques des grands modèles de langage : représentations sociales et considérations épistémologiques (« Les sciences humaines et sociales (SHS) reconnaissent que toute production de savoir est socialement située. La rigueur épistémologique exige donc l’explicitation des points de vue, des valeurs et des implicites sous-jacents aux discours analysés ou produits. Dès lors que les modèles de langage (LLM) sont mobilisés en SHS, leurs productions doivent être traitées comme des discours porteurs de représentations sociales. Cette présentation explore cette hypothèse en évaluant les compétences sociolinguistiques de plusieurs LLMs à travers une tâche d’inférence du genre d’auteurs de tweets. Les modèles doivent également justifier leurs réponses, permettant d’interroger non seulement la nature des représentations activées, mais aussi la manière dont elles sont formulées. L’originalité de l’approche tient à la modulation du positionnement social du modèle lui-même, via des prompts qui simulent différents profils sociaux. L’analyse des prédictions et des justifications permet ainsi d’évaluer comment les cadres énonciatifs influencent les discours générés et les implicites qu’ils véhiculent. ») [vidéo de la conférence]
  • 10 h – 10 h 30 : Changement de salle & Pause-café
  • 10 h 30 – 12 h 15 : Séance 3 (35 min × 3) – local : P0-7500 — Président de séance : Michael Sinatra (Université de Montréal, Canada)
    • Éric Le Ferrand (SUNY Buffalo, États-Unis) Exploring speech recognition for under-studied langages (« Automatic Speech Recognition (ASR) has become an increasingly appealing tool for linguists aiming to streamline their transcription workflows. However, adapting ASR to meet the needs of linguists presents significant challenges. Firstly, major ASR architectures are predominantly developed using data from widely spoken languages, which represent only a small fraction of the world’s typological diversity. Secondly, in the context of field linguistics, recordings are often the primary – if not the sole – source of data for building computational models. Unfortunately, the nature of data collected by descriptive linguists does not always align with the requirements of ASR models to perform effectively. In this presentation, I will highlight these challenges using a variety of languages and datasets and explore potential solutions to integrate speech recognition seamlessly into language documentation workflows. »)
    • Olivier Dallaire et Vincent Collette (Université du Québec à Chicoutimi, Canada) Le logiciel Transkribus au service de la transcription d’un dictionnaire français/algonquin de 1690 (« La plateforme d’intelligence artificielle Transkribus s’est révélée être un outil précieux pour la transcription du Dictionnaire Algonquin de Louis André datant de 1690. Le manuscrit, constitué d’un peu plus de 800 pages de lexique en vieil algonquin traduit en français du 17e siècle, représentait un défi considérable pour la technologie de transcription automatique, notamment en raison de la complexité de la calligraphie de son auteur et des nombreux ajouts par d’autres auteurs anonymes. Cependant, après avoir entraîné le logiciel en lui soumettant quelques centaines de pages transcrites manuellement, la qualité de ses transcriptions s’est vue considérablement améliorée. Bien que son travail ne soit pas exempt d’erreurs et nécessite toujours une révision, l’utilisation de cette plateforme a permis d’accélérer considérablement le processus de transcription du dictionnaire, réduisant notre tâche à la correction des versions préliminaires soumises par le logiciel, de même que le travail d’édition en vue de la publication. »)
    • Luc Baronian (Université du Québec à Chicoutimi, Canada) Vers le développement d’une méthodologie de l’exploitation du web comme corpus linguistique (« Traditionnellement, la composition d’un corpus en linguistique requiert un temps de préparation considérable en démarches administratives, subventionnaires, d’éthique, sans compter le temps pour se rendre dans les communautés, recruter des locuteurs et locutrices, numériser, transcrire et formater. Les corpus écrits plus anciens demandent aussi des qualités paléographiques (lorsque manuscrits), du temps de numérisation, de standardisation de format, voire d’enrichissement par métadonnées. La richesse du web offre parfois une alternative en fournissant sur-le-champ des millions de textes parmi lesquels il est possible de trouver des structures, de quantifier, voire de géolocaliser. Pour ce faire, il faut cependant se doter de méthodes qui permettent de contrôler pour des facteurs comme la nature des textes (littéraire, journalistique, spontané) ou leur orientation (opinion, avis d’expert, forums d’entraide). Nous verrons ensemble des exemples de défis posés par l’étude de cas spécifiques (productivité/défectivité, biais statistiques du web dans les opérations de quantification, géolocalisation). »)
  • 12 h 15 : Dîner (à emporter pour les personnes invitées)
(Version PDF du programme)

Ce contenu a été mis à jour le 2 décembre 2025 à 0 h 55 min.