Константин Крестников MCP Think Tool добавляем мышление любому AI агенту ODS AI Ru 1080p, h264
Автор: Krestnikov
Загружено: 2025-10-06
Просмотров: 1782
Описание:
Константин Крестников | MCP Think-Tool: добавляем мышление любому AI-агенту.
Выступление на Data Fest 2025: https://ods.ai/events/datafest2025
Подписывайтесь на мой Telegram канал: https://t.me/robofuture
Доклад посвящен Model Context Protocol (MCP) от Antropic — "USB 2.0 для агентов", который позволяет легко подключать внешние инструменты (тулы), данные и промпты к универсальным AI-агентам (например, GigaChat или Copilot).
Основное достижение — разработка Think-Tool. Это MCP-сервер, который, несмотря на использование внутри простой заглушки, заставляет не-Reasoning модели (как GigaChat Max 2) эмулировать размышления (планирование и рефлексию), требуя от них прописывать свои мысли. Использование Think-Tool привело к значительному росту метрик агентов на сложных задачах (математика, физика).
0:00 Вступление и приветствие. Представление Константина Кресникова, анонс доклада о MCP и исследованиях по созданию Reasoning-моделей. Предупреждение о большом количестве примеров кода.
0:45 Развитие агентов: вертикальные vs. универсальные. Обсуждение узкоспециализированных (вертикальных) агентов и возвращение к универсальным (горизонтальным), таким как Chat GPT. Прогноз, что пользователи будут переходить на универсальных агентов, которые станут универсальным интерфейсом к миру.
2:05 Что такое MCP (Model Context Protocol). Определение протокола от Antropic, который позволяет легко подключать к агенту внешние инструменты, источники данных, промпты и ресурсы. Позиционирование MCP как "USB 2.0 для агентов".
2:45 Архитектура агента с MCP. Компоненты MCP: MCP-клиент и MCP-сервер. Базовая структура React-агента, встроенные тулы и подключение MCP-серверов (по протоколам STDО и HTTP).
3:30 Экосистема MCP-серверов. Где брать агентов (Cursor, Copilot, Chat GPT, GigaChat) и MCP-сервера. Репозитории MCP-серверов на GitHub (OSOM MCP, репозиторий Antropic).
4:30 Пример подключения MCP к GitHub Copilot. Использование MCP config для изменения поведения Copilot. Подключение первого сервера (MCPD) для доступа к внешней документации (LangChain).
5:30 Подключение дополнительных MCP-серверов. Второй сервер для синтеза и воспроизведения речи (Solute Speech TTS). Третий конфиг для текстовых инструкций, определяющих моменты использования MCP-серверов.
6:30 Демонстрация работы Copilot с MCP. Агент использует MCP для RAG (поиск по внешней документации LangChain) и корректно отвечает на вопрос о реализации Human-in-the-Loop.
7:45 Проект GigaChain. Набор решений для создания LM-приложений и AI-агентов с GigaChat. SDK, LGraph, инструменты и MCP-серверы от GigaChain.
8:30 Создание MCP-сервера (пример кода). Исчерпывающий код MCP-сервера "Математика" (сложение чисел). Демонстрация возврата структурированных данных (Pydantic модель) на примере функции Find Person.
10:00 Создание MCP-клиента (агента). Код агента на GigaChat 2 Max с использованием LangGraph, который получает список тулов из подключённых MCP-серверов (Client Get Tools).
11:00 Диалог с агентом. Демонстрация использования MCP-серверов (Find Person, тул для умножения), подтверждающая срабатывание памяти и корректный вызов тулов.
12:20 Концепция Think-Tools. Как дать не-Reasoning модели инструмент "Подумай" с заглушкой для эмуляции размышлений и достижения роста метрик без фактического обучения.
13:30 Эксперимент с Think-Tool на GigaChat. Решение сложной задачи (сравнение прибыли трех компаний). Агент использует тул планирования (Plan) и последовательно рефлексирует (Think) после каждого шага поиска, что приводит к идеальному ответу.
16:00 Think-Tool как MCP-сервер. Упаковка Think-Tool в MCP (опубликован в OSOM MCP Servers). Пример сложной задачи (деление яблок), решенной Курсором после подключения Think-Tool.
17:15 Другие полезные MCP-серверы от GigaChain. Перечисление разработанных серверов: Think MCP, MCP GigaChecker, MCP для Кандинского (генерация PNG), MCP Салют Спич.
17:50 Замер качества агентов (Evaluation). Инструменты для оценки: LLM-IT (платное, передовое) и Phoenix (бесплатный Open Source).
18:50 Проведение экспериментов и оценка. Загрузка датасета (математические задачи), определение функции проверки ответа, прогон тестов через evaluate.
20:00 Результаты Think-Tool на бенчмарках. На математическом датасете GigaChat Max 2 с Think-Tool (~90%) догнал GPT O3. Значительный прирост на вопросах по физике (бенчмарк Десмат). Вывод: подход интересный и может привести к росту метрик.
21:30 Вопросы и ответы (Q&A).
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: