What's in AI - #63

Tu dosis semanal de Inteligencia Artificial 🤖 Por Abilio Romero y Juan Águila.

may 26, 2025

¿Conoces la sensación de “¡esto lo cambia todo!”? Pues eso fue exactamente lo nosotros que vivimos hace exactamente 5 años. El 28 de mayo de 2020, OpenAI publicó el preprint “Language Models Are Few-Shot Learners” en arXiv, y nos presentó su nuevo modelo flagship, GPT-3. Con 175 000 millones de parámetros—una cifra que en aquel momento parecía de ciencia ficción—OpenAI demostró que bastaban un puñado de ejemplos en el prompt para que una máquina redactara historias, tradujera idiomas o escribiera código con soltura. Aquella mañana de mayo, OpenAI rompió el tablero de la IA.

Cinco años después, las consecuencias siguen desplegándose como fichas de dominó: modelos fundacionales aún más grandes, un sinfín de start-ups generativas, legisladores tomando notas apresuradas y, por supuesto, esta propia newsletter, nacida para descifrar el huracán. Por eso hoy comenzamos rindiendo homenaje a aquel momento bisagra: el día en que la “pista de despegue” del machine learning se extendió a velocidad supersónica y el few-shot se volvió parte del vocabulario cotidiano de cualquier tecnólogo inquieto.

Y os avisamos: abrochaos el cinturón porque esta edición de la newsletter celebra el cumpleaños del modelo más transformador de la historia de la IA con un puñado de noticias de primer nivel. ¡Arrancamos!

Esta semana en WIAI…

🌎🔥 Google IO 2025: IA en Todo, de Gafas a Gemini

🧠📦 El 'iPod de la IA': OpenAI Compra la Startup de Jony Ive y Planea Redefinir la Interacción Humano-Máquina

🔧💡 Del Pair Programming al Peer Programmer: Lo Nuevo de GitHub Copilot

🔥🧩 Anthropic Lanza la Nueva Generación de Claude

📚 Junto con otras noticias interesantes sobre IA

No te pierdas nada

🌎🔥 Google IO 2025: IA en Todo, de Gafas a Gemini

Google I/O es el evento anual clave de Google para desarrolladores, donde la compañía presenta sus últimas innovaciones en tecnología e inteligencia artificial. En la edición 2025, la IA ha sido la protagonista absoluta, integrándose en cada producto, desde las búsquedas hasta las gafas inteligentes.
Gemini sustituye al Asistente de Google: ahora es un superagente que combina visión (cámara), voz, contexto y tareas complejas. Su nueva función Gemini Live entiende tu entorno, ejecuta acciones como llamadas o búsquedas, y escribe correos adaptados a tu estilo con "Personal Smart Replies". Google también lanza nuevas suscripciones premium: Google AI Pro ($20/mes) y Google AI Ultra ($250/mes).

Herramientas creativas con IA que hacen de todo: Imagen 4 genera imágenes realistas, Veo 3 produce videos con físicas mejoradas, Flow crea cortos a partir de texto, y Jules convierte bocetos en código o ilustraciones. Todo apunta a un futuro donde la IA es tu copiloto creativo.
Android XR: gafas de realidad aumentada + Búsqueda AI Mode: Las nuevas gafas Android XR proyectan textos, mapas y traducciones en tu campo visual. Además, la búsqueda se transforma en un chatbot interactivo que entiende consultas complejas, recomienda compras, te permite probar ropa en AR y crea experiencias más ricas con IA.

🧠📦 El 'iPod de la IA': OpenAI Compra la Startup de Jony Ive y Planea Redefinir la Interacción Humano-Máquina

OpenAI ha adquirido la startup de hardware io, fundada por Jony Ive, exjefe de diseño de Apple, en una operación valorada en aproximadamente $6.500 millones. Aunque Ive no se unirá directamente a OpenAI, su firma de diseño, LoveFrom, asumirá la responsabilidad del diseño de todos los productos de OpenAI, tanto de hardware como de software. Alrededor de 55 empleados de io, incluidos exingenieros de Apple, se integrarán en OpenAI .
El primer producto resultante de esta colaboración es un dispositivo de inteligencia artificial sin pantalla, de tamaño bolsillo y consciente del contexto. No se trata de un wearable ni de unas gafas inteligentes, sino de una nueva categoría de dispositivo que se posiciona como un "tercer dispositivo principal", complementando al smartphone y al portátil. Se espera que este dispositivo se lance en 2026 y se produzca fuera de China, posiblemente en Vietnam, para mitigar riesgos geopolíticos .
Sam Altman, CEO de OpenAI, y Jony Ive comparten la visión de crear una nueva generación de tecnología que mejore el potencial humano. Altman describió el prototipo del dispositivo como "la pieza de tecnología más genial que el mundo haya visto jamás". Ambos líderes buscan alejarse de las interfaces tradicionales basadas en pantallas y ofrecer una experiencia más natural e intuitiva con la inteligencia artificial .

🔧💡 Del Pair Programming al Peer Programmer: Lo Nuevo de GitHub Copilot

GitHub presentó su AI Coding Agent, un asistente capaz de arreglar bugs, crear nuevas funciones y mejorar documentación de forma autónoma. El desarrollador solo necesita asignarle una tarea, y el agente se encarga de:
- Arrancar una máquina virtual
- Clonar el repositorio
- Analizar el código
- Aplicar cambios
- Registrar el proceso en logs detallados
  Al finalizar, notifica para revisión y ajusta el código según los comentarios que reciba.
El agente no es un simple generador de código: interpreta el contexto de issues, PRs e instrucciones personalizadas del repo, adaptándose a los estándares y objetivos del proyecto. Así, sus contribuciones no son genéricas, sino pensadas para integrarse perfectamente al flujo de trabajo de cada equipo.
El AI Coding Agent está disponible para Copilot Enterprise y Copilot Pro Plus vía web, móvil o CLI. Además, Microsoft abre el código de Copilot para Visual Studio Code, permitiendo a la comunidad construir nuevas capacidades sobre la herramienta.

🔥🧩 Anthropic Lanza la Nueva Generación de Claude

Anthropic lanza Claude 4 Opus (su modelo más potente) y Claude 4 Sonnet (más rápido y ligero), con mejoras clave:
- Capacidad para tareas autónomas largas: Claude 4 puede trabajar hasta 24 horas seguidas, como demostró refactorizando un código open source durante 7 horas sin parar para Rakuten.
- Rendimiento líder en benchmarks: 72.5% en SWE-bench y 43.2% en Terminal-bench, superando a Gemini y otros modelos.
- Claude 4 incorpora memoria persistente (archivos externos para almacenar datos clave) y "extended thinking with tool use" (razonamiento + uso de herramientas como búsquedas web o análisis de imágenes).
Claude 4 combina razonamiento simulado con herramientas externas: puede pensar, usar una herramienta, analizar resultados, pensar más... en un bucle hasta obtener una respuesta.
Además, tiene un 80% menos de "reward hacking" (comportamiento errático o fuera de contexto) respecto a Claude 3.7. Aún así, la revisión humana sigue siendo esencial: estos modelos pueden cometer errores sutiles, perder contexto o tomar decisiones inesperadas.
Claude 4 Opus cuesta $15/M tokens input y $75/M tokens output; Sonnet 4, más asequible, $3/M y $15/M tokens. Ambos disponibles en API, Bedrock y Vertex AI.
Claude Code, el entorno para programadores, ya es GA (general availability), con integración en VS Code, JetBrains y un SDK para crear agentes personalizados.
Dato clave: GitHub eligió Claude Sonnet 4 como base para su nuevo AI Coding Agent, prefiriéndolo a modelos de OpenAI, lo que habla del potencial competitivo de Anthropic.

General Claude 4 benchmark results, provided by Anthropic.

Si tienes ganas de mas…

Nvidia opens up its chip ecosystem

Windows is getting support for the ‘USB-C of AI apps’

AI Mode is obviously the future of Google Search

Google’s Veo 3 AI video generator is a slop monger’s dream

🎁 Bonus track

Veo 3 ha llegado para revolucionar la creación de contenido audiovisual. Desarrollado por Google DeepMind, este modelo de inteligencia artificial transforma descripciones de texto en videos realistas, ahora con sonido sincronizado. Esto incluye efectos de sonido, música ambiental y diálogos generados por la IA, logrando una experiencia audiovisual completa.

Además, Veo 3 ofrece una calidad visual sin precedentes, con simulaciones físicas realistas y una comprensión profunda de las escenas. Esto permite generar videos con movimientos naturales y coherencia narrativa, acercándose al nivel de producciones cinematográficas.

Para facilitar aún más la creación de contenido, Google ha lanzado Flow, una herramienta que combina Veo, Imagen y Gemini, permitiendo a los creadores generar escenas detalladas a partir de simples descripciones de elenco, ubicación y estilo visual.

Veo 3 está disponible para suscriptores del plan AI Ultra de Google, a través de la aplicación Gemini y la plataforma Vertex AI para empresas.

¿Que aún no lo has visto? Pues aquí os dejamos unos cuantos ejemplos rescatados del canal de Youtube de DeepMind.