Anthropic представляет Constitutional Classifiers++: новый стандарт безопасности ИИ.
Автор: AI Paper Review
Загружено: 2026-01-13
Просмотров: 47
Описание:
В статье представлена система Constitutional Classifiers++, ориентированная на производительность система защиты нового поколения для крупномасштабных языковых моделей (LLM). Для компенсации уязвимостей существующих систем мы предлагаем *классификатор обмена**, который отслеживает контекст разговора в реальном времени для блокировки фрагментации информации и атак шифрования. Кроме того, мы предлагаем двухуровневую иерархическую структуру, использующую **линейные зонды* для значительного снижения вычислительных затрат при сохранении высокой производительности в области безопасности. После более чем 1700 часов тестирования атак Red Team система смогла снизить эксплуатационные расходы в 40 раз, при этом уровень ошибок составил 0,05%. В результате эта технология оценивается как практичное, эффективное и современное решение для защиты моделей от угроз высокого риска.
https://arxiv.org/pdf/2601.04603
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: