Members-Only
Recent Talks & Demos are for members only
You must be an AI Tinkerers active member to view these talks and demos.
Multimodal Embeddings: CLIP and CLAP
Explore multimodal embeddings for text, images, and audio. Learn how CLIP and CLAP connect data, generate embeddings, and apply them to semantic search and classification.
En esta charla, exploraremos cómo utilizar embeddings multimodales para representar información de distintas fuentes (texto, imágenes, audio) en un mismo espacio vectorial. A través de código y casos prácticos, veremos cómo modelos como CLIP y CLAP permiten crear conexiones entre texto e imágenes o texto y audio.
Se analizará la arquitectura subyacente, incluyendo el proceso de generación de embeddings, métricas para evaluar la calidad de las representaciones y cómo aplicar estos modelos en tareas como búsqueda semántica y clasificación multimodal.