What's in AI - #35

Tu dosis semanal de Inteligencia Artificial 🤖 Por Abilio Romero y Juan Águila.

nov 04, 2024

El 9 de noviembre de 2015 el equipo de Google Brain liberó TensorFlow como una plataforma de código abierto.

TensorFlow - Wikipedia

TensorFlow fue desarrollado originalmente por el equipo de Google Brain como sucesor de DistBelief, otro sistema de aprendizaje profundo creado en Google. Y en cuanto lo hicieron público tuvo una rápida adopción por parte de la comunidad, conviertiéndose en una de las librerías de IA mas usadas del mundo.

Aunque TensorFlow comenzó con Python, ahora tiene soporte para otros lenguajes, como C++, JavaScript y Swift. Además, desde su versión 2.0 incluye Keras como su API de alto nivel, haciendo aún mas accesible el uso de este tipo de frameworks.

Aunque hoy existan otras librerías que le ofrecen una dura competencia, nada hubiera sido lo mismo sin TensorFlow.

Esta semana en WIAI…

🎬🎭 Runway presenta Act-One, una nuevo modelo para animar personajes usando un vídeo como input

🔍🌐 OpenAI saca por fin su buscador: ChatGPT search

📄📊 Claude ya puede interpretar cualquier imagen contenida en un pdf

🌐✨ Google prepara Jarvis: Un Asistente de Navegación Automatizada

💻📝 GitHub Spark: Apps en Lenguaje Natural

☁️💡 La IA Impulsa el Crecimiento de Microsoft, según Nadella

📚 Junto con otras noticias interesantes sobre IA

No te pierdas nada

🎬🎭 Runway presenta Act-One, una nuevo modelo para animar personajes usando un vídeo como input

Act-One permite capturar expresiones y movimientos faciales complejos usando solo videos como input, lo que elimina la necesidad de configuraciones técnicas complejas o costosas. Esto hace accesible la creación de personajes realistas a un público más amplio, incluyendo a creadores independientes y pequeños estudios.

La tecnología de Act-One se centra en traducir las emociones y matices de los actores a modelos digitales, manteniendo un nivel de detalle que replica los gestos faciales con precisión. La herramienta se adapta incluso a cambios en ángulos de cámara, lo que permite una experiencia de grabación más natural y fluida.

Act-One permite que un solo actor interprete múltiples personajes en una sola toma, gracias a su capacidad para gestionar y sincronizar los diálogos en turnos. Esta característica es especialmente útil para la creación de escenas complejas de interacción entre personajes, ahorrando tiempo y recursos en las producciones.

🔍🌐 OpenAI saca por fin su buscador: ChatGPT search

La funcionalidad de búsqueda en línea permite que los usuarios consulten temas actuales como noticias de última hora, precios de acciones, predicciones de clima y más, desde la interfaz de ChatGPT.

A conversation about the weather forecast for Positano, Italy, on November 2-3, 2024, showing mild temperatures and rain. The user then asks for dinner recommendations in Positano on Friday night, with responses listing local restaurants.

ChatGPT Search se ha lanzado en colaboración con proveedores de información acreditados como Reuters, Vox y Le Monde, entre otros. Esta alianza asegura que las respuestas ofrecidas estén respaldadas por fuentes confiables, lo cual es especialmente valioso en temas que exigen precisión y credibilidad, como noticias y análisis financieros.

News headlines on Cuba’s energy crisis, with articles from AP News, Financial Times, and Reuters covering grid failures and blackouts affecting residents. A ‘Sources’ button with icons of AP, FT, Reuters, and others is shown below.

Inicialmente, ChatGPT Search está disponible para usuarios Plus y Team, pero se planea expandir a otros tipos de suscripciones (Enterprise, Edu y usuarios gratuitos) en las próximas semanas. Esta ampliación democratiza el acceso a la función de búsqueda en tiempo real, lo que promete un impacto más amplio en la experiencia del usuario.

📄📊 Claude ya puede interpretar cualquier imagen contenida en un pdf

Claude ha ampliado sus capacidades y ahora puede analizar cualquier imagen contenida en archivos PDF. Esta nueva función le permite leer y describir imágenes, diagramas, gráficos y otros elementos visuales, proporcionando una comprensión completa del documento.

La capacidad de Claude va más allá de simplemente "ver" las imágenes. Puede interpretarlas en el contexto del texto circundante, lo que permite responder a preguntas complejas o realizar análisis detallados de los datos que aparecen tanto en imágenes como en texto.

🌐✨ Google prepara Jarvis: Un Asistente de Navegación Automatizada

Google está desarrollando "Project Jarvis", un sistema de IA que tomará control del navegador (específicamente Chrome) para llevar a cabo tareas por el usuario, como investigar, comprar productos o reservar vuelos. Este avance busca simplificar las actividades cotidianas en línea.
Jarvis utilizará una versión futura de Gemini, la tecnología de IA de Google, y funcionará mediante la interpretación de capturas de pantalla y la interacción con elementos de la web, como hacer clic en botones o ingresar texto. Las acciones se ejecutan con un ligero retraso de "unos segundos".
Grandes compañías tecnológicas están trabajando en iniciativas similares, como Microsoft con Copilot Vision, Apple con su Inteligencia en pantalla, y OpenAI. Estos desarrollos reflejan la tendencia hacia agentes de IA que puedan realizar tareas complejas de forma autónoma y eficiente, posicionando a la IA como un asistente digital clave en el día a día.

💻📝 GitHub Spark: Apps en Lenguaje Natural

GitHub ha presentado Spark, una herramienta experimental que permite a los usuarios crear aplicaciones web usando únicamente lenguaje natural. Esta iniciativa busca simplificar el desarrollo de software, permitiendo a los usuarios describir aplicaciones en un chat y obtener una vista previa en tiempo real.
Spark utiliza un repositorio de GitHub, GitHub Actions, y Azure CosmosDB por defecto. Los usuarios pueden ver y editar el código en cualquier momento, lo que es útil cuando el modelo de IA comete errores. Spark también permite seleccionar entre modelos de IA como Claude Sonnet de Anthropic y los modelos GPT de OpenAI.
Los desarrolladores pueden compartir sus aplicaciones con controles de acceso personalizados y seguir construyendo sobre el código compartido. Spark no tiene límites en cuanto a la complejidad de las aplicaciones, y la empresa está emocionada por ver hasta dónde pueden llegar los usuarios con esta herramienta.

☁️💡 La IA Impulsa el Crecimiento de Microsoft, según Nadella

Microsoft acaba de reportar un aumento del 22% en los ingresos de su división Azure, consolidando su posición en el mercado de la nube gracias a su enfoque en inteligencia artificial. Esta división se ha convertido en una de las más destacadas de la compañía, atrayendo 39,000 clientes, un incremento del 80% respecto al año anterior.
Satya Nadella, CEO de Microsoft, señaló que el negocio de IA está en camino de superar un ritmo anual de ingresos de $10 mil millones, lo que lo convertiría en el negocio de más rápido crecimiento en la historia de la compañía. La demanda de Azure-OpenAI se ha duplicado en los últimos seis meses.
Para sostener su infraestructura, Microsoft ha incrementado sus gastos financieros en centros de datos y busca reactivar la planta nuclear de Three Mile Island para asegurar el suministro eléctrico. Sin embargo, los inversores observan con cautela estas apuestas, buscando un retorno claro en un sector cada vez más competitivo.

Si tienes ganas de mas…

OpenAI building first custom AI inference chip with TSMC and Broadcom - report

AI Writes Over 25% Of Code At Google—What Does The Future Look Like For Software Engineers?

Meta’s Next Llama AI Models Are Training on a GPU Cluster ‘Bigger Than Anything’ Else

Meta is reportedly developing a new AI-driven search engine

OpenAI CEO Says No GPT-5 in 2024, Blames GPT-o1

Meta AI has made new tools that will enable robots to touch and feel like humans

🎁 Bonus track

Os dejamos un tutorial con el que poder clonar vuestra voz de forma gratuita:

Y si te ha gustado la publicación, ¡no olvides compartirla!

Compartir El Substack de What's

Y si aún no estas suscrito, ¿a qué esperas? 😉

Déjanos tu opinión:

Cargando...

Discusión sobre este post

Sin posts

#nojs-banner { position: fixed; bottom: 0; left: 0; padding: 16px 16px 16px 32px; width: 100%; box-sizing: border-box; background: red; color: white; font-family: -apple-system, "Segoe UI", Roboto, Helvetica, Arial, sans-serif, "Apple Color Emoji", "Segoe UI Emoji", "Segoe UI Symbol"; font-size: 13px; line-height: 13px; } #nojs-banner a { color: inherit; text-decoration: underline; } This site requires JavaScript to run correctly. Please turn on JavaScript or unblock scripts