What's in AI - #14
Tu dosis semanal de Inteligencia Artificial 🤖 Por Abilio Romero y Juan Águila.
El 25 de mayo de 1977 se estrenó la primera película de Star Wars (Episodio IV: Una nueva esperanza) . Esta película no solo cambió la industria del cine sino que también influyó significativamente en la cultura pop y la tecnología cinematográfica.
Star Wars introdujo conceptos futuristas de robótica e inteligencia artificial, con personajes icónicos como C-3PO y R2-D2, que han inspirado a generaciones de investigadores y desarrolladores en el campo de la IA y la robótica.
Sin ir mas lejos, conocemos alguna gran empresa que ha llamado así a sus librerías internas de ML 😜
Esta semana en WIAI…
Esta semana hemos tenido dos eventos tremendamente relevantes en el ámbito de la Inteligencia Artificial, así que vamos con dos monográficos:
[🌟] 🚀🆓 OpenAI presenta GPT-4o: su nuevo buque insignia
[🌟] 📱🤖 Google I/O 2024: Gemini llega al portfolio de productos de Google
📚 Junto con otras noticias interesantes sobre IA
No te pierdas nada
[🌟] 🚀🆓OpenAI presenta GPT-4o: su nuevo buque insignia
GPT-4o (omni):
Es el doble de rápido que su predecesor, GPT-4, y cuesta un 50% menos.
Nativamente multimodal. Funciona a través de voz, texto y procesamiento visual.
Y como gran sorpresa, será gratuito para todos los usuarios de ChatGPT.
Supera en varios benchmarks a su predecesor, además de a la competencia.
Y, según confirmo un empleado en X, el famoso “im-also-a-good-gpt2-chatbot” en el LMSys arena era realmente Gpt-4o. Mirad los resultados:
La interacción de voz y vídeo, una increíble evolución:
GPT-4o puede ser interrumpido y ajustado en tiempo real, ofreciendo una interacción más intuitiva y fluida. Su capacidad para cambiar el tono de voz y la entonación hace que la experiencia sea más natural y adaptable a diferentes contextos.
En la demo se mostró también como el modelo puede resolver problemas matemáticos simples y reconocer oraciones a través de la cámara. Así como reconocer emociones o hacer traducción en tiempo real.
Y todo esto con una latencia prácticamente nula (una media de 320 milisegundos)
Tendremos también una nueva aplicación de escritorio, tanto para Mac como para Windows.
[🌟] 📱🤖 Google I/O 2024: Gemini llega al portfolio de productos de Google
Google I/O 2024 ha mostrado avances significativos del gigante tecnológico en IA, destacando la integración y mejoras en los modelos Gemini, la innovación en búsqueda visual y video, y la creación de herramientas avanzadas para usuarios y creadores. La incorporación de IA en herramientas cotidianas como Workspace y Chrome promete transformar la productividad y la interacción digital.
Actualización de Google Search con IA:
La búsqueda de Google se renovará con "AI Overviews", ofreciendo respuestas resumidas y diseñadas por un modelo especializado de Gemini.
Esta experiencia es similar a la que ya habíamos visto en productos como Perplexity o Arc Search.
AI Overviews ya está en rollout, y se espera un despliegue completo antes de final de año.
Google Lens ahora permite búsquedas con video:
Google Lens ha ampliado sus capacidades y ahora permite buscar información grabando un video.
Esto significa que ahora vas a poder tomar un video de algo sobre lo que quieras buscar información, hacer una pregunta, y Google buscará información relevante en la web para darte una respuesta.
Gemini responde preguntas sobre tu biblioteca de fotos:
La nueva función "Ask Photos" permite a Gemini revisar las fotos que tengas guardadas en Google Photos y responder preguntas sobre tus imágenes.
Durante la demo, Sundar Pichai buscó la matrícula de su coche, recibiendo como respuesta el número (escrito) y una foto a modo de prueba.
Gemini 1.5 Flash: Más rápido y eficiente:
Google presentó el modelo Gemini 1.5 Flash, optimizado para tareas de alta frecuencia y baja latencia.
Además, Gemini 1.5 Pro ahora puede manejar hasta 2 millones de tokens, mejorando también su capacidad de traducción, razonamiento y codificación.
Gemini se integra en Workspace:
Gemini 1.5 Pro se integrará en herramientas de Google Workspace como Docs, Sheets, Slides, Drive y Gmail.
Esta función, disponible para suscriptores de pago a partir del mes que viene, actuará como un asistente general capaz de gestionar y utilizar la información de tus documentos y correos electrónicos.
Project Astra: El futuro asistente multimodal:
Google presentó Project Astra, un asistente virtual capaz de entender y actuar sobre lo que ve a través de la cámara de tu dispositivo.
Esta IA multimodal promete ser un verdadero agente que pueda ir mucho más allá de responder preguntas, realizar tareas por ti.
Veo: Generación de videos basada en IA:
Google lanzó Veo, un modelo de IA que genera videos 1080p a partir de texto, imágenes y videos.
Ya está siendo utilizado por creadores de contenido en YouTube y se propone como una herramienta útil para la industria cinematográfica.
Gems: Creación personalizada de chatbots:
Gems permite a los usuarios personalizar chatbots de Gemini, definiendo su comportamiento y especialización, de un modo similar a los GPT de OpenAI.
Esta función estará disponible para suscriptores de Gemini Advanced.
Gemini Live: Mejora en la conversación:
La nueva característica Gemini Live busca hacer las conversaciones por voz con la IA más naturales y dinámicas, permitiendo interrupciones y consultas visuales en tiempo real.
Chrome obtiene un asistente IA:
Gemini Nano se integrará en Google Chrome para ayudar en la generación de textos y otros contenidos directamente desde el navegador.
Si tienes ganas de mas…
Minsait presenta a 'Alicia', la avatar de IA experta en finanzas
Claude, el rival de ChatGPT, desembarca en España
Stability AI supuestamente se queda sin dinero y en negociaciones para vender
🎁 Bonus track
Si quieres ver todos los detalles sobre las novedades de Google y OpenAI de primera mano, aqui tienes ambas presentaciones completas:
Y si te ha gustado la publicación, ¡no olvides compartirla!
Y si aún no estas suscrito, ¿a qué esperas? 😉
Déjanos tu opinión: