NVIDIA Cosmos Reason 2: объяснение принципа работы. Новый мозг для физического ИИ.
Автор: Foundation Models For Robotics
Загружено: 2026-01-14
Просмотров: 250
Описание:
#NVIDIA #PhysicalAI #CosmosReason2 #Robotics #AI #VLM #MachineLearning #ComputerVision
Добро пожаловать обратно! В сегодняшнем видео мы подробно рассмотрим **NVIDIA Cosmos Reason 2**, новейший прорыв в области открытых моделей визуального языка (VLM), разработанных специально для **физического ИИ**.
В то время как традиционные модели ИИ превосходно распознают объекты, они часто испытывают трудности с задачами, которые естественны для человека, такими как планирование или адаптация к новым физическим ситуациям. *NVIDIA Cosmos Reason 2* призвана устранить этот пробел, предоставляя роботам и агентам ИИ здравый смысл и рассуждения, необходимые для пошагового решения сложных проблем.
*🚀 Что делает Cosmos Reason 2 особенной?*
В настоящее время она занимает *1-е место среди открытых моделей* в рейтингах Physical AI Bench и Physical Reasoning. Благодаря сочетанию физики, предварительных знаний и пространственно-временного понимания, система может распознавать движение объектов в пространстве и времени.
*Основные технические особенности:*
*Огромное контекстное окно:* Теперь поддерживает **256 тыс. входных токенов**, что является значительным скачком по сравнению с 16 тыс., предлагаемыми в версии 1.
*Точное распознавание:* Улучшена точность временных меток и поддерживается **локализация точек в 2D/3D**, координаты ограничивающего прямоугольника и **поддержка OCR**.
*Гибкое развертывание:* Доступны **размеры параметров 2B и 8B**, что позволяет развертывать систему от периферии до облака.
*Планирование траектории:* В отличие от предшественника, теперь предоставляются **координаты траектории**, чтобы помочь роботам точно определять свои следующие движения.
*Применение в реальном мире:*
*Автономное вождение:* *Uber* использует его для генерации точных, доступных для поиска субтитров к видео для обучающих данных, улучшая идентификацию сценариев на двузначное число процентов по ключевым показателям.
*Безопасность на рабочем месте:* *Salesforce* использует эту модель с роботами Cobalt для анализа видеоматериалов в целях безопасности и соответствия требованиям.
*Робототехника:* Такие компании, как *Encord* и **Hitachi**, используют её в качестве модели «Vision Language Action» (VLA), которая выступает в роли «мозга» для принятия роботизированных решений.
*Семейство Cosmos:*
Мы также затрагиваем **Cosmos Predict 2.5**, которая может прогнозировать будущие физические состояния на срок до 30 секунд, и **Cosmos Transfer 2.5**, которая обрабатывает передачу видео в виртуальный мир для таких симуляций, как **NVIDIA Isaac Sim**.
Независимо от того, являетесь ли вы разработчиком, желающим использовать **Cosmos Cookbook**, или энтузиастом ИИ, эта модель представляет собой огромный шаг к человекоподобному мышлению ИИ в физическом мире.
*Попробуйте сами:*
Вы можете скачать модели на *Hugging Face* или протестировать их на **build.nvidia.com**.
***
*Теги:*
NVIDIA Cosmos Reason 2, Физический ИИ, Языковая модель зрения, VLM, Робототехника, Автономные транспортные средства, Рассуждения ИИ, NVIDIA Isaac Sim, NVIDIA GR00T, Аннотирование данных, OCR, Пространственно-временное понимание, Машинное обучение, Компьютерное зрение, Объяснения ИИ, Uber AI, Salesforce AI, 2D 3D точечная локализация, Планирование траектории, NVIDIA Cosmos Predict, ИИ с открытым исходным кодом, ИИ для робототехники
*Аналогия для закрепления понимания:*
Представьте *Cosmos Reason 2* как разницу между *камерой* и **разведчиком**. Камера может записать ливень, а разведчик может увидеть дождь, прочитать близлежащие дорожные знаки с помощью OCR, рассчитать степень скользкости дороги на основе законов физики, а затем спланировать точную траекторию движения автомобиля для обеспечения безопасности.
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: