Подружить краудсорсинг и машинное обучение. Дмитрий Усталов, Яндекс Толока
Автор: Видео с мероприятий {speach!
Загружено: 2022-06-30
Просмотров: 148
Описание:
Многие важные наборы данных в машинном обучении, такие как ImageNet и SuperGLUE, получены при помощи краудсорсинга. В краудсорсинге исполнители не являются экспертами в решении поставленной перед ними задачи, поэтому для повышения качества разметки используется перекрытие. При этом специалисты по машинному обучению не учитывают эту специфику при обучении и эксплуатации модели.
Доклад призван научить специалистов и исследователей в области машинного обучения учитывать специфику разметки данных в их собственных решениях, использующих краудсорсинг. Мы рассмотрим три важные проблемы:
Как правильно учитывать шум в краудсорсинговых данных при обучении модели
Как учесть субъективные ответы исполнителей в разметке
Как отслеживать смещение распределения при помощи мониторинга моделей
Будут показаны примеры возникновения этих проблем, рассмотрены и продемонстрированы варианты их решения при помощи готовых открытых инструментов, рассмотрены идеи дальнейших исследований и разработок.
Слушатели:
Узнают, как учитывать шум в краудсорсинговых данных при обучении модели при помощи специальных методов из научной литературы, таких как CrowdLayer и CoNAL.
Научатся проектировать задания с субъективной оценкой и агрегировать ответы при помощи функции, доступной в открытой библиотеке Crowd-Kit:
GitHub - Toloka/crowd-kit: Computational Quality Control for Crowdsourcing.
Увидят, как при помощи краудсорсинга можно оперативно заметить смещение распределения в эксплуатации модели.
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: