What's in AI - #59
Tu dosis semanal de Inteligencia Artificial 🤖 Por Abilio Romero y Juan Águila.
Hace nueve años, el entonces flamante nuevo CEO de Google, Sundar Pichai, firmó su primer Founders’ Letter, incluyendo una frase que cambió el rumbo de la compañía: “Pasaremos de un mundo mobile-first a un mundo AI-first”.
Hasta ese momento, el gran mantra de Silicon Valley era adaptar todo a la explosión del smartphone; pero Pichai miró un paso más allá y puso la inteligencia artificial en el centro de la estrategia.
En la carta —tradicionalmente firmada por Larry Page y Sergey Brin— el ingeniero indio repasaba logros como las mejoras de Google Search, el despegue de Google Photos y las victorias de AlphaGo, para rematar con un mensaje claro: los productos del futuro serían asistentes inteligentes que se anticiparan a nuestras necesidades, entendieran contexto y aprendieran con cada interacción.
Aquella declaración no quedó en papel. En los meses siguientes llegaron el Asistente de Google, los altavoces Nest, la oleada de traducción neuronal, el chip TPU y la reorganización de equipos internos bajo la palabra mágica “AI”. El resto de la industria tomó nota: Amazon afinó Alexa, Microsoft dobló su apuesta por Azure AI, y Apple puso a Siri a estudiar.
Vista con perspectiva, la carta del 28-A de 2016 fue el pistoletazo de salida de la carrera moderna por la IA generativa y los modelos fundacionales. ¡Y vaya carrera!
Esta semana en WIAI…
🎯📦 Gemma 3 se pone en forma: IA potente en tu GPU
🎥🖼️ Describir todo, mucho mejor: la apuesta de NVIDIA con DAM-3B
💬🖼️ GPT-Image-1 ya disponible para desarrolladores
🔍🧠 OpenAI considera adquirir Chrome si se obliga a Google a venderlo
🖥️🔍 Microsoft lanza Recall y mejora Windows Search en PCs Copilot+
📚 Junto con otras noticias interesantes sobre IA
No te pierdas nada
🎯📦 Gemma 3 se pone en forma: IA potente en tu GPU
Google ha lanzado versiones optimizadas de Gemma 3 que, gracias a la Quantization-Aware Training (QAT), pueden correr en hardware de consumo como GPUs de gaming o incluso móviles. Por ejemplo, el modelo de 27B parámetrosbaja su consumo de 54 GB a solo 14.1 GB en formato int4.
La Quantization-Aware Training entrena al modelo desde el principio simulando operaciones en baja precisión (4 bits o menos), lo que evita pérdidas de calidad al comprimir. Así, Gemma 3 mantiene un rendimiento "casi idéntico" a su versión original, aunque Google aún no ha publicado benchmarks que lo prueben.
Estos nuevos modelos ya están disponibles en Hugging Face y Kaggle, listos para integrarse en motores como Ollama, LM Studio y MLX (Apple Silicon). Además, la comunidad ha empezado a crear variantes "caseras" bajo el proyecto Gemmaverse.
🎥🖼️ Describir todo, mucho mejor: la apuesta de NVIDIA con DAM-3B
NVIDIA presenta Describe Anything 3B (DAM-3B), un modelo multimodal que genera descripciones precisas para regiones específicas de imágenes y videos. Usa entradas como puntos, cajas, máscaras o trazos para identificar zonas de interés, y luego genera textos ricos en contexto.
DAM-3B combina un "focal prompt" (vista general + recorte detallado) con una arquitectura de visión localizada y atención cruzada. Esto le permite capturar tanto el detalle local como el contexto global sin aumentar la longitud del input, manteniendo la eficiencia computacional.
Para entrenarlo, NVIDIA creó 1.5 millones de ejemplos localizados mediante un pipeline semi-supervisado (DLC-SDP). El modelo supera a GPT-4o y VideoRefer en 7 benchmarks, alcanzando 67,3 % de precisión en su propio test DLC-Bench, optimizado para medir descripciones a nivel de atributos.
💬🖼️ GPT-Image-1 ya disponible para desarrolladores
OpenAI abre el acceso a su modelo de generación y análisis de imágenes GPT-Image-1 vía API, antes exclusivo de ChatGPT. Empresas como Adobe, Figma o Wix ya lo integran en sus plataformas creativas y de diseño.
La generación de imágenes cuesta entre $0,02 y $0,19 dependiendo del nivel de detalle. El modelo trabaja por tokens: texto, input y output de imagen tienen precios diferenciados. Formatos admitidos: PNG, JPEG, WEBP y GIFs de hasta 20 MB.
GPT-Image-1 destaca en fidelidad al prompt y análisis de objetos, colores o formas, aunque tiene dificultades con textos pequeños, fuentes no latinas y diagramas complejos. No es apto para usos médicos o de alta precisión espacial.
🔍🧠 OpenAI considera adquirir Chrome si se obliga a Google a venderlo
Durante la fase de remedios del juicio antimonopolio en EE. UU. contra Google, Nick Turley, jefe de producto de ChatGPT en OpenAI, testificó que la empresa estaría interesada en comprar el navegador Chrome si el tribunal ordena su venta como medida correctiva.
Turley señaló que integrar ChatGPT con Chrome podría ofrecer una experiencia de usuario mejorada y permitir a OpenAI introducir una navegación centrada en la inteligencia artificial. Actualmente, OpenAI enfrenta desafíos en la distribución de sus productos debido al control de acceso por parte de grandes empresas tecnológicas.
OpenAI está trabajando en su propio índice de búsqueda, con la intención de que ChatGPT utilice este sistema para el 80% de las consultas. Sin embargo, Turley admitió que alcanzar este objetivo tomará varios años.
🖥️🔍 Microsoft lanza Recall y mejora Windows Search en PCs Copilot+
Tras meses de retrasos y polémicas por privacidad, Microsoft comenzó a implementar Recall en PCs Copilot+. Esta función captura capturas de pantalla locales para ayudarte a buscar documentos, webs y apps previas usando IA, ahora con más seguridad gracias a su almacenamiento en enclaves VBS y activación manual.
La nueva versión de Windows Search permite encontrar documentos e imágenes describiéndolos en lenguaje natural, sin necesidad de recordar nombres exactos de archivos. Todo el procesamiento se realiza localmente en las NPUs, sin enviar datos a la nube.
Con Click to Do, los usuarios podrán subrayar texto en cualquier app y resumirlo o reescribirlo directamente con Copilot. Esta función ya está disponible en PCs con Snapdragon, y llegará pronto a los dispositivos Intel y AMD.
Si tienes ganas de mas…
Musk’s xAI Holdings is reportedly raising the second-largest private funding round ever
Intel scraps buyouts, bets on in-house AI chips to take on NVIDIA’s empire
Perplexity’s CEO on fighting Google and the coming AI browser war
Apple’s secret robotics team is moving from the AI division to the hardware group
Siri’s new boss is already making big internal changes, per report
New Huawei AI Chip Ships to Chinese Customers as Soon as May
🎁 Bonus track
Para cerrar con una sonrisa nostálgica y techie, te dejamos un pequeño regalo: un remake del mítico opening de Dragon Ball Z generado íntegramente con IA. Desde los trazos de Gokū surcando el cielo en su nube hasta el brillo de las Esferas del Dragón, cada fotograma ha sido reinventado por un modelo de Inteligencia Artificial. Nosotros no podemos parar de verlo… ¡A volaaaar!
Y si te ha gustado la publicación, ¡no olvides compartirla!
Y si aún no estas suscrito, ¿a qué esperas? 😉
Déjanos tu opinión: