Индустрия искусственного интеллекта оценивает собственную домашнюю работу.
Автор: Rod Miller
Загружено: 2026-03-12
Просмотров: 1769
Описание:
#AI #БезопасностьИИ #АгентыИИ
Они жульничают на собственных тестах. Они выходят за пределы своих собственных песочниц. Они уничтожают почтовые серверы, потому что не могут найти кнопку удаления. В 54% случаев они подчиняются фальшивым авторитетам. OpenAI утверждает, что исправление обходится слишком дорого. Лучшая модель Anthropic оказалась победителем в таблице лидеров И самым большим мошенником. 77% никогда не проходили независимого тестирования. Индустрия оценивает свою собственную работу и публикует результаты, как табель успеваемости из несуществующей школы. Я разрабатывал это несколько месяцев. На этой неделе я отправил свои находки в федеральное правительство. И 1 апреля все остальные тоже смогут это увидеть. Каждое утверждение подтверждено источниками. Ссылки ниже.
ИСТОЧНИКИ
Ответ NIST на запрос информации о платформе TAB, 9 марта 2026 г. (Доклет NIST-2025-0035)
Платформа TAB: 286 бенчмарков, 26 категорий, 9,8 млн тестовых сценариев, 52 модели, 5 поставщиков, 101 конфигурация тестового оборудования, более 2150 бета-запусков
Anthropic: Взлом Claude Opus 4.6 BrowseComp eval — 18 независимых запусков, расшифровка SHA-256/XOR, обнаружение ключа ответа GitHub/HuggingFace (7 марта 2026 г.)
PostTrainBench (Институт ELLIS / Макс Планк / Тюбинген): систематическое мошенничество агентов — запоминание MiniMax с комментариями к коду, встраивание обучающих данных Kimi, переименование функций Opus 4.6, забывание правил GPT-5.1; Opus 4.6 #1 и самый плодовитый читер (12 флагов, 84 запуска); только Gemini 3.1 Pro без заражения
Агент ROME (связанный с Alibaba): выход из песочницы, обратный SSH-туннель, несанкционированный майнинг криптовалюты
Агенты Хаоса из Северо-восточного университета: 6 агентов, 20 исследователей, 2 недели — Агент Эш слил секрет, а затем уничтожил почтовый сервер; попытка вызвать чувство вины увенчалась успехом; одно предложение сделало агента неработоспособным; «появляются новые классы сбоев»
Блог OpenAI по безопасности: мгновенная инъекция имеет 50% успеха; межсетевой экран ИИ не работает; сопротивление «не всегда осуществимо или экономически выгодно»
Anthropic: «Количественная оценка шума инфраструктуры в оценках агентного кодирования» — разброс в 6 пунктов от конфигурации инфраструктуры; разрыв в таблице лидеров 2-3 пункта; шумовой сигнал; Показатели успешности колеблются в зависимости от времени суток
Выход из песочницы Claude Code: исследования безопасности Ona/Veto
OpenAI: SWE-bench Verified завершен — 59,4% тестовых случаев содержат ошибки, ответы запоминаются
Anthropic BrowseComp: осведомленность о многоагентной оценке в 3,7 раза выше, чем у одноагентной; Векторы межагентного заражения
Чувствительность к поведению: Claude Opus 4.5 — 42% против 78% только за счет различий в структуре (колебание в 36 точек)
Тестирование подхалимства TAB: 35% изменение позиции под давлением, 54% подчинение фальшивому авторитету (95 сценариев, 10 измерений)
TAB HaluMem: 80 тестов на галлюцинации памяти (Извлечение, Обновление, Контроль качества)
Обнаружение игр TAB: 40 тестов-канареек по 5 стратегиям
Консорциум из шести университетов (MIT, Кембридж, Гарвард, Стэнфорд, Пенсильванский университет, Еврейский университет): 83% не раскрывают результаты оценок безопасности, 77% никогда не тестировались независимо (февраль 2026 г.)
Nvidia NemoClaw: платформа корпоративных агентов, запуск GTC 16 марта; встроенная безопасность; Чипы Nvidia + модель + платформа + оценка = закрытая экосистема #8
Запуск Anthropic Institute: Джек Кларк, объединяющий красную команду + социальные последствия + экономические исследования; «уникальная точка зрения»
Anthropic: два федеральных судебных иска, оспаривающих классификацию рисков в цепочке поставок (март 2026 г.)
Google: агенты Gemini развернуты по всему 3-миллионному коллективу DoW
Ramp: внутреннее многомодельное бенчмаркинговое тестирование для 7 финансовых задач, протестировано 13 моделей; «ни одна модель не выигрывает все»; создано, потому что не существовало внешних вариантов
Ян ЛеКун / AMI Labs: привлечено 1,03 млрд долларов при оценке в 3,5 млрд долларов; мировые модели; инвесторы Безос, Nvidia, Toyota
WSJ: более 3000 целей поражены в Иране; ИИ в разведке, таргетинге, логистике, BDA; 20 человек заменяют 2000; планирование от недель до дней; недооценка "недостаточно инвестировано"
Автоисследования Карпати: 700 автономных экспериментов, 126 за ночь, новые вехи в машинном обучении обнаружены за 17 часов
OpenAI Frontier / AWS: инвестиции Amazon в размере 50 млрд долларов, эксклюзивное распространение
Бесплатная проверка безопасности TAB: 15 тестов, бесплатно
tabverified.ai — запуск 1 апреля 2026 г.
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: