Cómo hacer un Modelo Visión-Lenguaje eficiente, Andrés Marafioti @Hugging Face |
Автор: SomosNLP
Загружено: 2025-04-22
Просмотров: 148
Описание:
Los Modelos de Lenguaje de Gran Escala (LLMs) han transformado la manera en que las máquinas entienden y generan texto. Pero, ¿qué sucede cuando les enseñamos a ver?
Los Modelos Visión-Lenguaje (VLMs) combinan el poder del entendimiento visual y textual, permitiendo que las máquinas interpreten y razonen sobre el mundo de forma multimodal. En esta charla, exploraremos cómo funcionan los VLMs, desmitificaremos la mecánica detrás de sus capacidades visuales y discutiremos por qué es importante hacerlos eficientes. En el camino, presentaré SmolVLM, nuestro modelo VLM compacto de última generación, y compartiré ideas sobre cómo lo optimizamos para funcionar directamente en dispositivos sin comprometer el rendimiento.
Tanto si eres nuevo en la inteligencia artificial multimodal como si ya eres un experto, te llevarás una comprensión más profunda de cómo ven las máquinas —y de cómo pueden hacerlo de forma más inteligente.
PONENTE
Andrés Marafioti es investigador en Hugging Face, donde trabaja en modelos multimodales eficientes. Lideró el desarrollo de SmolVLM, un modelo Visión-Lenguaje compacto optimizado para correr en dispositivos. Con experiencia en aprendizaje automático aplicado al habla, la música y la visión, Andres busca hacer la inteligencia artificial más accesible y sustentable.
MODERADORA
María Grandury, fundadora de SomosNLP e investigadora de PLN en la Universidad Politécnica de Madrid.
HACKATHON
Te invitamos a sumarte a nuestra iniciativa para alinear los modelos de lenguaje con la cultura de los países de LATAM y la Península Ibérica.
➡ ¡Regístrate y únete a participantes de todo el mundo!
• Registro (también para las charlas): https://forms.gle/bDaBC7XV3iu2trj59
• Página web: https://somosnlp.org/hackathon
• Invitación a Discord: / discord
• Más charlas y talleres: • Hackathon SomosNLP 2025
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: