Multimodal Embeddings: CLIP and CLAP

Explore multimodal embeddings for text, images, and audio. Learn how CLIP and CLAP connect data, generate embeddings, and apply them to semantic search and classification.

Overview

En esta charla, exploraremos cómo utilizar embeddings multimodales para representar información de distintas fuentes (texto, imágenes, audio) en un mismo espacio vectorial. A través de código y casos prácticos, veremos cómo modelos como CLIP y CLAP permiten crear conexiones entre texto e imágenes o texto y audio.

Se analizará la arquitectura subyacente, incluyendo el proceso de generación de embeddings, métricas para evaluar la calidad de las representaciones y cómo aplicar estos modelos en tareas como búsqueda semántica y clasificación multimodal.

Tech stack