What's in AI - #14

Tu dosis semanal de Inteligencia Artificial 🤖 Por Abilio Romero y Juan Águila.

may 20, 2024

El 25 de mayo de 1977 se estrenó la primera película de Star Wars (Episodio IV: Una nueva esperanza) . Esta película no solo cambió la industria del cine sino que también influyó significativamente en la cultura pop y la tecnología cinematográfica.

Star Wars introdujo conceptos futuristas de robótica e inteligencia artificial, con personajes icónicos como C-3PO y R2-D2, que han inspirado a generaciones de investigadores y desarrolladores en el campo de la IA y la robótica.

Sin ir mas lejos, conocemos alguna gran empresa que ha llamado así a sus librerías internas de ML 😜

Esta semana en WIAI…

Esta semana hemos tenido dos eventos tremendamente relevantes en el ámbito de la Inteligencia Artificial, así que vamos con dos monográficos:

[🌟] 🚀🆓 OpenAI presenta GPT-4o: su nuevo buque insignia

[🌟] 📱🤖 Google I/O 2024: Gemini llega al portfolio de productos de Google

📚 Junto con otras noticias interesantes sobre IA

No te pierdas nada

[🌟] 🚀🆓OpenAI presenta GPT-4o: su nuevo buque insignia

GPT-4o (omni):
- Es el doble de rápido que su predecesor, GPT-4, y cuesta un 50% menos.
- Nativamente multimodal. Funciona a través de voz, texto y procesamiento visual.
- Y como gran sorpresa, será gratuito para todos los usuarios de ChatGPT.
- Supera en varios benchmarks a su predecesor, además de a la competencia.
- Y, según confirmo un empleado en X, el famoso “im-also-a-good-gpt2-chatbot” en el LMSys arena era realmente Gpt-4o. Mirad los resultados:
La interacción de voz y vídeo, una increíble evolución:
- GPT-4o puede ser interrumpido y ajustado en tiempo real, ofreciendo una interacción más intuitiva y fluida. Su capacidad para cambiar el tono de voz y la entonación hace que la experiencia sea más natural y adaptable a diferentes contextos.
- En la demo se mostró también como el modelo puede resolver problemas matemáticos simples y reconocer oraciones a través de la cámara. Así como reconocer emociones o hacer traducción en tiempo real.
- Y todo esto con una latencia prácticamente nula (una media de 320 milisegundos)
Tendremos también una nueva aplicación de escritorio, tanto para Mac como para Windows.

[🌟] 📱🤖 Google I/O 2024: Gemini llega al portfolio de productos de Google

Google I/O 2024 ha mostrado avances significativos del gigante tecnológico en IA, destacando la integración y mejoras en los modelos Gemini, la innovación en búsqueda visual y video, y la creación de herramientas avanzadas para usuarios y creadores. La incorporación de IA en herramientas cotidianas como Workspace y Chrome promete transformar la productividad y la interacción digital.
Actualización de Google Search con IA:
- La búsqueda de Google se renovará con "AI Overviews", ofreciendo respuestas resumidas y diseñadas por un modelo especializado de Gemini.
- Esta experiencia es similar a la que ya habíamos visto en productos como Perplexity o Arc Search.
- AI Overviews ya está en rollout, y se espera un despliegue completo antes de final de año.

Google Lens ahora permite búsquedas con video:
- Google Lens ha ampliado sus capacidades y ahora permite buscar información grabando un video.
- Esto significa que ahora vas a poder tomar un video de algo sobre lo que quieras buscar información, hacer una pregunta, y Google buscará información relevante en la web para darte una respuesta.
Gemini responde preguntas sobre tu biblioteca de fotos:
- La nueva función "Ask Photos" permite a Gemini revisar las fotos que tengas guardadas en Google Photos y responder preguntas sobre tus imágenes.
- Durante la demo, Sundar Pichai buscó la matrícula de su coche, recibiendo como respuesta el número (escrito) y una foto a modo de prueba.

Gemini 1.5 Flash: Más rápido y eficiente:
- Google presentó el modelo Gemini 1.5 Flash, optimizado para tareas de alta frecuencia y baja latencia.
- Además, Gemini 1.5 Pro ahora puede manejar hasta 2 millones de tokens, mejorando también su capacidad de traducción, razonamiento y codificación.
Gemini se integra en Workspace:
- Gemini 1.5 Pro se integrará en herramientas de Google Workspace como Docs, Sheets, Slides, Drive y Gmail.
- Esta función, disponible para suscriptores de pago a partir del mes que viene, actuará como un asistente general capaz de gestionar y utilizar la información de tus documentos y correos electrónicos.

Project Astra: El futuro asistente multimodal:
- Google presentó Project Astra, un asistente virtual capaz de entender y actuar sobre lo que ve a través de la cámara de tu dispositivo.
- Esta IA multimodal promete ser un verdadero agente que pueda ir mucho más allá de responder preguntas, realizar tareas por ti.
Veo: Generación de videos basada en IA:
- Google lanzó Veo, un modelo de IA que genera videos 1080p a partir de texto, imágenes y videos.
- Ya está siendo utilizado por creadores de contenido en YouTube y se propone como una herramienta útil para la industria cinematográfica.
Gems: Creación personalizada de chatbots:
- Gems permite a los usuarios personalizar chatbots de Gemini, definiendo su comportamiento y especialización, de un modo similar a los GPT de OpenAI.
- Esta función estará disponible para suscriptores de Gemini Advanced.
Gemini Live: Mejora en la conversación:
- La nueva característica Gemini Live busca hacer las conversaciones por voz con la IA más naturales y dinámicas, permitiendo interrupciones y consultas visuales en tiempo real.
Chrome obtiene un asistente IA:
- Gemini Nano se integrará en Google Chrome para ayudar en la generación de textos y otros contenidos directamente desde el navegador.