Arman Cohan - Evaluating and Understanding LLMs: From Scientific Reasoning to Alignment as Judges

Автор: uclanlp-plus

Загружено: 2025-12-18

Просмотров: 4

Описание: Talk Title: Evaluating and Understanding LLMs: From Scientific Reasoning to Alignment as Judges

Abstract: We present our recent work on evaluating and understanding large language models in scientific contexts and understanding them in context of evaluation-generation capabilities. First, we'll introduce SciArena, an open evaluation platform for literature-grounded scientific tasks that uses expert preferences to rank models on long-form, literature-grounded responses. The platform currently supports a broad set of open and proprietary models and has already accumulated a large pool of high-quality preferences. Using these data, we release SciArena-Eval, a meta-evaluation benchmark for training and stress-testing automated judges on science tasks. We will then turn to scientific problem solving. We discuss a holistic suite of scientific reasoning tasks, and a new framework for studying the role of knowledge in scientific problem solving and its interaction with reasoning. Our analysis shows that retrieving task-relevant knowledge from model parameters is the primary bottleneck for science reasoning; in-context external knowledge systematically helps even strong reasoning models; and improved verbalized reasoning increases a model’s ability to surface the right knowledge. Finally, if there is time, we will present a work on generation–evaluation consistency and show that models that judge well also tend to generate outputs that align with human preferences. This enables alignment benchmarking that evaluates models in their role as judges without scoring their generations directly.

To checkout other talks in our full NLP Seminar Series, please visit: • UCLA NLP Seminar Series

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Arman Cohan - Evaluating and Understanding LLMs: From Scientific Reasoning to Alignment as Judges

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Sherry Yang - Learning World Models and Agents for High-Cost Environments

Sherry Yang - Learning World Models and Agents for High-Cost Environments

Natasha Jaques - Social Reinforcement Learning for pluralistic alignment and human-AI interaction

Natasha Jaques - Social Reinforcement Learning for pluralistic alignment and human-AI interaction

Aviral Kumar - The Importance of Exploration for Test-Time Scaling

Aviral Kumar - The Importance of Exploration for Test-Time Scaling

Понимание GD&T

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

«Экономическая ситуация меняется так, как не предвидели» — Олег Вьюгин

«Экономическая ситуация меняется так, как не предвидели» — Олег Вьюгин

Parisa Kordjamshidi - Reasoning under Uncertainty with Large Multimodal Language Models

Parisa Kordjamshidi - Reasoning under Uncertainty with Large Multimodal Language Models

Как строили корабли для мирового господства

Как строили корабли для мирового господства

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Делаем графические процессоры по-настоящему быстрыми: глубокий анализ эффективности тренировок

Делаем графические процессоры по-настоящему быстрыми: глубокий анализ эффективности тренировок

Julie Kallini - MrT5: Dynamic Token Merging for Efficient Byte-level Language Models

Julie Kallini - MrT5: Dynamic Token Merging for Efficient Byte-level Language Models

Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic

Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic

Математика или ИИ: кто владеет цифровым миром?

Математика или ИИ: кто владеет цифровым миром?

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Zhe Gan - How to Build Your Multimodal LLMs: From Pre-training to Post-training and Agents

Zhe Gan - How to Build Your Multimodal LLMs: From Pre-training to Post-training and Agents

Ночные пробуждения в 3–4 часа: как найти причину и вернуть глубокий сон.

Ночные пробуждения в 3–4 часа: как найти причину и вернуть глубокий сон.

Принц Персии: разбираем код гениальной игры, вытирая слезы счастья

Принц Персии: разбираем код гениальной игры, вытирая слезы счастья

Тайны полифонии Баха — как работает гениальный мозг?

Тайны полифонии Баха — как работает гениальный мозг?

Использование Logic Apps в качестве MCP-серверов для вашего приложения искусственного интеллекта.

Использование Logic Apps в качестве MCP-серверов для вашего приложения искусственного интеллекта.