What's in AI - #42

Tu dosis semanal de Inteligencia Artificial 🤖 Por Abilio Romero y Juan Águila.

dic 23, 2024

¿Jugarías al ajedrez sin saber cómo se mueve la torre? ¿O te animarías a echarte una partidita de Pac-Man sin que te expliquen las reglas? Suena a locura, ¿verdad? Pues la gente de DeepMind no solo lo imaginó, sino que lo hizo realidad.

El 23 de diciembre de 2020, se presentó MuZero, una IA capaz de aprender a jugar a Go, Shōgi, ajedrez y hasta videojuegos retro de Atari… ¡sin que nadie le explique las normas! Olvídate de manuales y tutoriales: MuZero prueba, falla, observa y vuelve a intentarlo hasta entender el juego por sí misma. En otras palabras: “no rules? no problem!”.

MuZero utiliza un algoritmo de IA que aprende a planificar sin conocer todas las reglas del entorno. En lugar de modelar todo, se centra solo en lo necesario para tomar buenas decisiones: el valor de una posición, la política de acciones y la recompensa pasada. Esto le permite superar métodos anteriores y destacar incluso en entornos complejos, como los videojuegos de Atari, sin tener que conocer de antemano las dinámicas exactas del mundo.

Es un poco irónico, pero la news de esta semana viene cargada de noticias sobre cómo Google ha entrado (por fin) a romper en el “juego de la IA”.

¡Que empiece la partida!

Esta semana en WIAI…

🧠🚀 El nuevo modelo de razonamiento de OpenAI, o3, rompe todos los benchmarks

🎥📸 Google pone en aprietos a OpenAI con Veo 2, Imagen 3 y Whisk

🌟⚡ Nvidia lanza un kit de desarrollo AI más potente y accesible

🛠️✨ OpenAI mejora su API: acceso completo al modelo o1 y más

🤔🧠 Google apuesta por el razonamiento con Gemini 2.0 Flash Thinking

📞🗣️ ChatGPT ahora en tu teléfono: OpenAI lanza el servicio 1-800-CHATGPT

📚 Junto con otras noticias interesantes sobre IA

No te pierdas nada

🧠🚀 El nuevo modelo de razonamiento de OpenAI, o3, rompe todos los benchmarks

OpenAI presentó dos nuevos modelos de inteligencia artificial, o3 y o3 mini, diseñados específicamente para procesos de razonamiento avanzado.
Los modelos o3 han demostrado su superioridad en benchmarks técnicos como SWE-Bench Verified y Codeforces, que evalúan habilidades de programación y matemáticas.

Si queréis un análisis en detalle podéis echar un ojo al vídeo de DotCSV:

🎥📸 Google pone en aprietos a OpenAI con Veo 2, Imagen 3 y Whisk

Veo 2: El nuevo modelo de Google genera vídeos de hasta 2 minutos en 4K, superando claramente la resolución 720p de su competidor, Sora de OpenAI. Aunque limitado a pruebas en países seleccionados, promete revolucionar la creación de contenido multimedia.

Imagen 3: La actualización de Imagen 3 mejora el fotorrealismo, la fidelidad a los prompts y la representación de estilos artísticos como el impresionismo. Ya disponible en la herramienta ImageFX, eleva los estándares de la generación visual.
Whisk: Este experimento combina Gemini para describir imágenes y las capacidades de Imagen 3 para remezclarlas. Permite crear contenidos únicos y personalizados, aunque aún no está disponible globalmente.

🌟⚡ Nvidia lanza un kit de desarrollo AI más potente y accesible

Más potencia por menos precio: El nuevo Jetson Orin Nano Super Developer Kit de Nvidia llega con un precio competitivo de $249, ofreciendo un 70% más de procesamiento neuronal que su predecesor y el doble de capacidad para proyectos de IA y robótica.
Este modelo usa el mismo hardware que el Orin Nano original, pero el nuevo JetPack update desbloquea un modo de potencia mejorado que incrementa las velocidades de GPU, CPU y memoria, elevando el rendimiento para ambos kits.
Con un diseño compacto y componentes robustos como el Nvidia Ampere GPU y un CPU Arm de 6 núcleos, este kit es ideal para chatbots, agentes visuales de IA y robots avanzados.

🛠️✨ OpenAI mejora su API: acceso completo al modelo o1 y más

Los desarrolladores ahora tienen acceso al modelo completo o1, más rápido y preciso (25-35 puntos porcentuales más en benchmarks). Incluye funciones clave como mensajes para guiar chatbots y manejo eficiente de razonamiento, reduciendo el costo y tiempo por consulta.
Nuevas capacidades en function calling, resultados estructurados y soporte WebRTC facilitan la integración en aplicaciones como asistentes de voz y dispositivos contextuales. La API también abarata costos de tokens de audio en un 60-90%.
El método de "direct preference optimization" permite hacer fine-tuning de modelos con comparaciones simples en lugar de ejemplos complejos, mientras los nuevos SDK para Go y Java amplían la compatibilidad para desarrolladores.

🤔🧠 Google apuesta por el razonamiento con Gemini 2.0 Flash Thinking

Google lanza Gemini 2.0 Flash Thinking Experimental, diseñado para desafíos en programación, matemáticas y física. Aunque prometedor, sus primeros resultados muestran inconsistencias, como errores en tareas simples de conteo.
Este modelo se diferencia al "pausar y pensar", verificando su razonamiento antes de responder, una capacidad similar al modelo o1 de OpenAI. Sin embargo, este enfoque puede ralentizar las respuestas, tomándose segundos o incluso minutos.
Con empresas como DeepSeek y Alibaba sumándose a esta tendencia, los modelos de razonamiento buscan superar los límites de la IA generativa tradicional. A pesar de los costos elevados y los desafíos técnicos, podrían redefinir la precisión y utilidad de la IA en problemas complejos.

📞🗣️ ChatGPT ahora en tu teléfono: OpenAI lanza el servicio 1-800-CHATGPT

OpenAI presenta el número 1-800-CHATGPT (1-800-242-8478) para que cualquier persona en EE. UU. pueda conversar con ChatGPT por voz, hasta 15 minutos gratis, sin necesidad de un smartphone o computadora. Los usuarios internacionales pueden interactuar mediante WhatsApp.
Basado en la API de Realtime de OpenAI, este servicio permite hacer preguntas y recibir respuestas en vivo. Desde traducciones hasta datos curiosos, la funcionalidad demuestra ser útil, versátil y accesible desde cualquier tipo de teléfono, incluso uno de disco vintage.
Esta innovación, nacida de un proyecto interno de hackathon, busca democratizar el acceso a la inteligencia artificial, llevándola a todos los rincones y dispositivos posibles, ampliando las formas de interactuar con ChatGPT.

Si tienes ganas de mas…

US set to allow tech giants to control access to AI chips

Meta is rolling out live AI and Shazam integration to its smart glasses

Microsoft is testing live translation on Intel and AMD Copilot Plus PCs

Instagram teases AI editing tools that will completely reimagine your videos

🎁 Bonus track

Hace casi un año, OpenAI lanzó su modelo text-to-video, Sora, acompañado de una serie de cortos que captaron nuestra atención de inmediato.

OpenAI's new Sora text-to-video model can create frighteningly realistic content

Sin embargo, las altas expectativas generadas no se han cumplido como se esperaba. Ahora que el modelo está disponible de manera general, presenta problemas significativos de consistencia. Por otro lado, el nuevo modelo de Google, Veo 2, ha mostrado resultados impresionantes, poniendo en evidencia las limitaciones de la apuesta de OpenAI en generación de video.

Aunque sabemos que las comparaciones son odiosas, este video del maestro Carlos Santana no podría ser más apropiado. ¡Aquí os lo dejamos!

Y si te ha gustado la publicación, ¡no olvides compartirla!

Compartir El Substack de What's

Y si aún no estas suscrito, ¿a qué esperas? 😉

Déjanos tu opinión:

Cargando...

What's in AI - #42

Tu dosis semanal de Inteligencia Artificial 🤖 Por Abilio Romero y Juan Águila.

Esta semana en WIAI…

No te pierdas nada

🧠🚀 El nuevo modelo de razonamiento de OpenAI, o3, rompe todos los benchmarks

🎥📸 Google pone en aprietos a OpenAI con Veo 2, Imagen 3 y Whisk

🌟⚡ Nvidia lanza un kit de desarrollo AI más potente y accesible

🛠️✨ OpenAI mejora su API: acceso completo al modelo o1 y más

🤔🧠 Google apuesta por el razonamiento con Gemini 2.0 Flash Thinking

📞🗣️ ChatGPT ahora en tu teléfono: OpenAI lanza el servicio 1-800-CHATGPT

Si tienes ganas de mas…

🎁 Bonus track

Discusión sobre este post