ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Safety Alignment Should be Made More Than Just a Few Tokens Deep (Paper Explained)

Автор: Yannic Kilcher

Загружено: 2024-12-10

Просмотров: 13267

Описание: This paper demonstrates in a series of experiments that current safety alignment techniques of LLMs, as well as corresponding jailbreaking attacks, are in large part focusing on modulating the distribution of the first few tokens of the LLM response.

Paper: https://openreview.net/forum?id=6Mxhg...

Abstract:
The safety alignment of current Large Language Models (LLMs) is vulnerable. Simple attacks, or even benign fine-tuning, can jailbreak aligned models. We note that many of these vulnerabilities are related to a shared underlying issue: safety alignment can take shortcuts, wherein the alignment adapts a model's generative distribution primarily over only its very first few output tokens. We unifiedly refer to this issue as shallow safety alignment. In this paper, we present case studies to explain why shallow safety alignment can exist and show how this issue universally contributes to multiple recently discovered vulnerabilities in LLMs, including the susceptibility to adversarial suffix attacks, prefilling attacks, decoding parameter attacks, and fine-tuning attacks. The key contribution of this work is that we demonstrate how this consolidated notion of shallow safety alignment sheds light on promising research directions for mitigating these vulnerabilities. We show that deepening the safety alignment beyond the first few tokens can meaningfully improve robustness against some common exploits. We also design a regularized fine-tuning objective that makes the safety alignment more persistent against fine-tuning attacks by constraining updates on initial tokens. Overall, we advocate that future safety alignment should be made more than just a few tokens deep.

Authors: Anonymous

Links:
Homepage: https://ykilcher.com
Merch: https://ykilcher.com/merch
YouTube:    / yannickilcher  
Twitter:   / ykilcher  
Discord: https://ykilcher.com/discord
LinkedIn:   / ykilcher  

If you want to support me, the best thing to do is to share out the content :)

If you want to support me financially (completely optional and voluntary, but a lot of people have asked for this):
SubscribeStar: https://www.subscribestar.com/yannick...
Patreon:   / yannickilcher  
Bitcoin (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq
Ethereum (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2
Litecoin (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m
Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Safety Alignment Should be Made More Than Just a Few Tokens Deep (Paper Explained)

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

RWKV: Reinventing RNNs for the Transformer Era (Paper Explained)

RWKV: Reinventing RNNs for the Transformer Era (Paper Explained)

Context Rot: How Increasing Input Tokens Impacts LLM Performance (Paper Analysis)

Context Rot: How Increasing Input Tokens Impacts LLM Performance (Paper Analysis)

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Проблема нержавеющей стали

Проблема нержавеющей стали

Как сделать фотографию с помощью скотча (безлинзовая съемка)

Как сделать фотографию с помощью скотча (безлинзовая съемка)

ИИ-агенты — кошмар для безопасности? Разбираемся с OpenClaw

ИИ-агенты — кошмар для безопасности? Разбираемся с OpenClaw

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Введение в MCP | Протокол MCP - 01

Введение в MCP | Протокол MCP - 01

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Сопоставление потоков для генеративного моделирования (с пояснениями в статье)

Сопоставление потоков для генеративного моделирования (с пояснениями в статье)

Training large language models to reason in a continuous latent space – COCONUT Paper explained

Training large language models to reason in a continuous latent space – COCONUT Paper explained

6 бесплатных инструментов для работы со спутниковыми снимками, которые должен знать каждый следов...

6 бесплатных инструментов для работы со спутниковыми снимками, которые должен знать каждый следов...

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Одно изображение стоит NxN слов | Диффузионные трансформаторы (ViT, DiT, MMDiT)

Одно изображение стоит NxN слов | Диффузионные трансформаторы (ViT, DiT, MMDiT)

Efficient Streaming Language Models with Attention Sinks (Paper Explained)

Efficient Streaming Language Models with Attention Sinks (Paper Explained)

The Dark Matter of AI [Mechanistic Interpretability]

The Dark Matter of AI [Mechanistic Interpretability]

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Технический анализ: как агенты ИИ игнорируют 40 лет прогресса в области безопасности.

Технический анализ: как агенты ИИ игнорируют 40 лет прогресса в области безопасности.

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]