Учебное пособие по Google Gemini Embedding 2 | Проект по сопоставлению мультимодальных изображений
Автор: Analytics Vidhya
Загружено: 2026-03-14
Просмотров: 107
Описание:
Попробуйте наши бесплатные курсы по GenAI — https://www.analyticsvidhya.com/cours...
Компания Google недавно выпустила Gemini Embedding 2, свою первую полностью мультимодальную модель встраивания, построенную на архитектуре Gemini, в режиме публичного предварительного просмотра через API Gemini и Vertex AI. Gemini Embedding 2 сопоставляет текст, изображения, видео, аудио и документы в единое, унифицированное пространство встраивания и улавливает семантические намерения более чем на 100 языках. Это упрощает сложные конвейеры обработки данных и улучшает широкий спектр мультимодальных задач — от генерации с расширенным поиском (RAG) и семантического поиска до анализа настроений и кластеризации данных.
Временные метки:
0:00 - Введение в Gemini Embedding 2
0:44 - Текстовые встраивания против мультимодальных встраиваний
1:46 - Поддерживаемые модальности: видео, аудио и PDF
2:10 - Гибкие размеры встраивания (3072 против меньших)
2:39 - Обзор проекта сопоставления изображений
3:46 - Структура набора данных и подготовка данных
4:46 - Настройка API Gemini и клиента Python
5:35 - Загрузка набора данных и генерация встраиваний
6:20 - Логика сопоставления изображений (косинусное сходство)
6:45 - Проверка результатов: насколько они точны?
7:51 - Будущие улучшения: векторные базы данных и RAG
#GeminiEmbeddingModel #GeminiEmbeddings #GoogleGeminiEmbedding2
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: