Tuning Free (Inference Time) Alignment of Large Language Models - Amrit Singh Bedi

Автор: WaterlooAI

Загружено: 2025-02-03

Просмотров: 138

Описание: Abstract: Traditional fine-tuning of foundation models is computationally heavy, involving updates to billions of parameters. A promising alternative, alignment via decoding, adjusts the response distribution directly without model updates to maximize a target reward r, thus providing a lightweight and adaptable framework for alignment. However, principled decoding methods rely on oracle access to an optimal Q-function (Q*), which is often unavailable in practice. We propose Transfer Q*, which implicitly estimates the optimal value function for a target reward through a baseline model aligned with a baseline reward rBL (which can be different from the target reward). Our approach significantly reduces the sub-optimality gap observed in prior SoTA methods and demonstrates superior empirical performance across key metrics such as coherence, diversity, and quality in extensive tests on several synthetic and real datasets.

Bio: Amrit Singh Bedi is an assistant professor in the Computer Science department at the University of Central Florida, Fl, USA. Before that, He was a research assistant professor in the Computer Science Department at the University of Maryland, College Park, MD, USA. He obtained his Ph.D. in Electrical Engineering from IIT Kanpur, Kanpur, India, in 2018. Following his doctoral studies, he worked as a Research Associate within the Computational and Information Sciences Directorate at the US Army Research Laboratory (ARL) in Adelphi, MD, USA, from 2019 to 2022. His research interests lie in artificial intelligence (AI) for autonomous systems, with specific emphasis on scalable & sample-efficient learning algorithms. Currently, he is working on the problem of AI alignment in language models. His paper was selected as one of the Best Paper Finalists at the 2017 IEEE Asilomar Conference on Signals, Systems, and Computers. He received an honorable mention from the IEEE Robotics and Automation Letters in 2020. He was awarded the Amazon Research Award in 2022.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Tuning Free (Inference Time) Alignment of Large Language Models - Amrit Singh Bedi

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Bridging the Reality Gap in Reinforcement Learning - Sophia Lien

Bridging the Reality Gap in Reinforcement Learning - Sophia Lien

2025 год в AGI: таймлайн до AGI и обзор основных работ - Татьяна Шаврина - семинар AGI

2025 год в AGI: таймлайн до AGI и обзор основных работ - Татьяна Шаврина - семинар AGI

Spiking Neural Networks for More Efficient AI Algorithms

Spiking Neural Networks for More Efficient AI Algorithms

Waterloo.AI Seminar Series

Waterloo.AI Seminar Series

Neuromorphic Computing: Training Spiking Neural Networks to Recognize Gestures.

Neuromorphic Computing: Training Spiking Neural Networks to Recognize Gestures.

ЛЕКЦИЯ ПРО НАДЁЖНЫЕ ШИФРЫ НА КОНФЕРЕНЦИИ БАЗОВЫХ ШКОЛ РАН В ТРОИЦКЕ

ЛЕКЦИЯ ПРО НАДЁЖНЫЕ ШИФРЫ НА КОНФЕРЕНЦИИ БАЗОВЫХ ШКОЛ РАН В ТРОИЦКЕ

Fair and Optimal Prediction via Post-Processing - Han Zhao

Fair and Optimal Prediction via Post-Processing - Han Zhao

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Artificial Intelligence: The Brand That Wouldn’t Die

Заморозки на фронте, приостановка ударов по энергетике и каждому - по Starlink

Заморозки на фронте, приостановка ударов по энергетике и каждому - по Starlink

КОЗЫРЕВ - астрофизик ДОКАЗАЛ, что ВРЕМЯ это ЭНЕРГИЯ: дважды СИДЕЛ, приговорён к РАССТРЕЛУ

КОЗЫРЕВ - астрофизик ДОКАЗАЛ, что ВРЕМЯ это ЭНЕРГИЯ: дважды СИДЕЛ, приговорён к РАССТРЕЛУ

«Мы на дне уже»? Что ждет Россию в 2026 | Наталья Зубаревич о серьезных проблемах экономики и людей

«Мы на дне уже»? Что ждет Россию в 2026 | Наталья Зубаревич о серьезных проблемах экономики и людей

Probalistic Inference & Decision making with foundation models for bayesian optimization – Agustinus

Probalistic Inference & Decision making with foundation models for bayesian optimization – Agustinus

БЕЛКОВСКИЙ: "А царь-то не настоящий". Где Путин нашел "отца", МИРА (не)ждите, Трамп, Кадыров, Иран

Запуск нейросетей локально. Генерируем - ВСЁ

Запуск нейросетей локально. Генерируем - ВСЁ

ПОСЛЕ СМЕРТИ ВАС ВСТРЕТЯТ НЕ РОДСТВЕННИКИ, А.. ЖУТКОЕ ПРИЗНАНИЕ БЕХТЕРЕВОЙ. ПРАВДА КОТОРУЮ СКРЫВАЛИ

ПОСЛЕ СМЕРТИ ВАС ВСТРЕТЯТ НЕ РОДСТВЕННИКИ, А.. ЖУТКОЕ ПРИЗНАНИЕ БЕХТЕРЕВОЙ. ПРАВДА КОТОРУЮ СКРЫВАЛИ

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

⚡️ ВСУ экстренно запросили помощь || Зеленскому приказали капитулировать

⚡️ ВСУ экстренно запросили помощь || Зеленскому приказали капитулировать

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности