ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Tuto@Mate#70 - Concevoir un projet d’annotation de données langagières avec INCEpTION par L.M Ho-Dac

Автор: Tuto Mate-shs

Загружено: 2025-04-01

Просмотров: 225

Описание: Concevoir et mener un projet d’annotation de données langagières avec INCEpTION

Annoter un corpus, c’est ajouter une ou plusieurs couches d’interprétation à des données langagières brutes (textes écrits numérisés ou discours oraux retranscrits). Les annotations sont réalisées lors de campagnes d’annotation par des annotateurs humains, plus ou moins experts, qui s’appuient sur un guide d’annotation et utilisent un outil d’annotation.

L’annotation peut-être définie comme le processus par lequel un groupe d’annotateurs va avoir pour mission d’enrichir manuellement un corpus en y ajoutant des informations linguistiques qui peuvent être de nature très diversifiée : délimitation d’unités (e.g. morphèmes, tokens, unités de discours, expressions référentielles, entités nommées), mise en relation d’unités (e.g. relations syntaxiques, relations de discours, relations anaphoriques) ou étiquetage des unités ou des relations (e.g. partie du discours, fonctions syntaxiques, type sémantique, acte de parole).

Cet atelier a pour objectif de revenir sur les éléments fondamentaux d’une campagne d’annotation de données langagières et présenter comment les mettre en oeuvre grâce à la plateforme INCEpTION. Cette plateforme propose des fonctionnalités pour mener des projets d’annotation complexes :

mise en place d’un projet d’annotation : import de corpus, création de couches d’annotation, mise à disposition des guides d’annotation
gestion de cohortes d’annotateurs
interface d’annotation
interface d’adjudication (i.e. phase de l’annotation qui consiste à trouver un consensus en cas de désaccord entre plusieurs annotateurs)
mesure de l’accord inter-annotateur pour évaluer la qualité des annotations récoltées
export des annotations dans différents formats.
Parmi les atouts de la plateforme INCEpTION, le caractère collaboratif nous intéresse particulièrement. Un projet d’annotation collaborative consiste à fédérer des annotateurs humains pour annoter un même jeu de données de façon asynchrone et à distance afin de constituer petit à petit une « grande » ressource annotée que ce soit un grand nombre de textes, une grande diversité de couches d’annotation et/ou un grand nombre d’annotations communes pour mettre au jour les (dés)accords inter-annotateurs. Nous retrouvons ici la même idée que celle de construction collaborative à la base du projet Wikipedia.

Le caractère collaboratif devrait assurer la mise à disposition d’annotations de qualité dans une quantité suffisante et fournir des données d’entraînement de modèles d’apprentissage automatique, des données d’évaluation pour le traitement automatique du langage et des données pour réaliser des analyses quantitatives.

Lien : https://inception-project.github.io/

Lydia-Mai HO-DAC est Maîtresse de conférences en Sciences du Langage à l’Université Toulouse Jean Jaurès dans le laboratoire CLLE (UM5263). Elle enseigne en linguistique de corpus et Traitement Automatique des Langues.

Ce webinaire, tenu le 1er avril 2025, fait partie de la série des Tuto@Mate du réseau Mate-shs. Plus d'informations sur le tuto (par exemple slides, liens utiles) sur le site de Mate-shs : https://mate-shs.cnrs.fr/actions/tuto...
et sur Mate-shs : https://mate-shs.cnrs.fr

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Tuto@Mate#70 - Concevoir un projet d’annotation de données langagières avec INCEpTION par L.M Ho-Dac

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

L’importance et les jeux de l’annotation des données dans la réalisation d’un projet d’IA

L’importance et les jeux de l’annotation des données dans la réalisation d’un projet d’IA

Tuto@Mate#69 Les Méthodes d’échantillonnage par réseaux par Pierre Bataille

Tuto@Mate#69 Les Méthodes d’échantillonnage par réseaux par Pierre Bataille

Tuto@Mate#62 Joseph Larmarange présente les modèles de comptage

Tuto@Mate#62 Joseph Larmarange présente les modèles de comptage

Les stratégies d'annotation d’images au cœur de la performance des algorithmes de computer vision

Les stratégies d'annotation d’images au cœur de la performance des algorithmes de computer vision

Tuto@59Mate#59 Claire Lemercier présente l'approche prosopographique

Tuto@59Mate#59 Claire Lemercier présente l'approche prosopographique

4 Hours Chopin for Studying, Concentration & Relaxation

4 Hours Chopin for Studying, Concentration & Relaxation

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Trump’s Name in Epstein Files “More Than ONE MILLION

Trump’s Name in Epstein Files “More Than ONE MILLION" Times & MAGA Explodes with Rage Over Bad Bunny

Top 50 SHAZAM⛄Лучшая Музыка 2026⛄Зарубежные песни Хиты⛄Популярные Песни Слушать Бесплатно #84

Top 50 SHAZAM⛄Лучшая Музыка 2026⛄Зарубежные песни Хиты⛄Популярные Песни Слушать Бесплатно #84

Когнитивные искажения и ошибки восприятия. Лекция в Ереване. День 1

Когнитивные искажения и ошибки восприятия. Лекция в Ереване. День 1

Tuto@Mate#72 Nvivo ou Excel pour l'analyse de données qualitatives par Marie Moncada

Tuto@Mate#72 Nvivo ou Excel pour l'analyse de données qualitatives par Marie Moncada

SHAZAM Top 50🏖️Лучшая Музыка 2025🏖️Зарубежные песни Хиты🏖️Популярные Песни Слушать Бесплатно2025 #39

SHAZAM Top 50🏖️Лучшая Музыка 2025🏖️Зарубежные песни Хиты🏖️Популярные Песни Слушать Бесплатно2025 #39

Tuto@Mate#66 Amandine Blin et Cécile Lecoeur présetent le tidyverse dans le langage R

Tuto@Mate#66 Amandine Blin et Cécile Lecoeur présetent le tidyverse dans le langage R

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Tuto@Mate#65 Lino Galiana présente le format de fichier statistique parquet

Tuto@Mate#65 Lino Galiana présente le format de fichier statistique parquet

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Tuto@Mate#68 La méthode des narrations quantifiées par Grossetti, Akermann, Chapus et Chauvac

Tuto@Mate#68 La méthode des narrations quantifiées par Grossetti, Akermann, Chapus et Chauvac

Учебное пособие по ClickUp — Как использовать ClickUp для начинающих

Учебное пособие по ClickUp — Как использовать ClickUp для начинающих

Tuto@Mate#71 Propp-fr: Chaîne de traitement automatique d’œuvres littéraires françaises. A. Bourgois

Tuto@Mate#71 Propp-fr: Chaîne de traitement automatique d’œuvres littéraires françaises. A. Bourgois

Tuto@Mate#60 : Frédéric Audard et Sébastien Oliveau présentent le logiciel GeoDa

Tuto@Mate#60 : Frédéric Audard et Sébastien Oliveau présentent le logiciel GeoDa

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]