Enero - 2025
Número 6

Red Educativa Digital Descartes
Córdoba (España)
descartes@proyectodescartes.org
https://proyectodescartes.org

Revista Digital Red Descartes
https://proyectodescartes.org/revista/index.html

Esta obra está bajo una licencia Creative Commons 4.0 internacional: Reconocimiento-No Comercial-Compartir Igual.

CONTENIDO

05	Creando un artículo con STORM de la Universidad de Stanford

08	Contando historias con Mootion y Magic Light

12	¿Imagen 3 o Grok-2?

18	Anima personajes con Adobe Express usando voces de ElevenLabs

19	Usando el Canvas de Mistral

21	Las IA de razonamiento se enloquecen con un problema de Geometría

23	Sonus-1: una nueva era en LLM de razonamiento

28	El primer sistema de mezcla de agentes (MoA) del mundo

CONTENIDO

34	Novedades en modelos de generación de imágenes y videos

49	¡Hailuo AI presenta modelos de IA para rivalizar con los gigantes!

51	Novedades para arquitectos

56	Imágenes de Grok 2 en la ilusión de distorsión del rostro

58	Red Panda o Recraft V3

62	Podcast interactivo con Illuminate AI de Google

63	Los objetos 3D creados con Trellis de Microsoft

64	¿ChatGPT?, ¿DeepSeek?... ¡Qwen 2.5 Plus!

Nuevos comienzos, nuevas perspectivas

Bienvenidos al primer boletín de este año, donde exploramos las novedades más emocionantes en inteligencia artificial de enero de 2024. Este mes, cargado de simbolismo, marca no solo el inicio de un nuevo ciclo, sino también una oportunidad para reflexionar sobre el progreso y anticipar lo que está por venir.

Enero, bautizado en honor a Jano, el dios romano de las transiciones, simboliza la renovación y los nuevos horizontes. Así como el calendario nos invita a mirar hacia adelante, las innovaciones en IA nos abren puertas hacia futuros fascinantes. Este número temático examina cómo la tecnología y las tradiciones convergen, desde el significado cultural del Año Nuevo hasta las aplicaciones más recientes de la inteligencia artificial que transforman nuestra manera de vivir, trabajar y conectarnos.

Prepárate para sumergirte en un viaje de descubrimientos tecnológicos mientras celebramos el espíritu de enero como un mes de cambio, esperanza y evolución. ¡Feliz inicio de año!

La introducción e imagen nos la ha dado ChatGPT, al igual que los siguientes prompt, que usaremos en el boletín.

Boletín 6 - Enero 2025

Un paisaje amplio y luminoso al amanecer, con un cielo en tonos cálidos de naranja, dorado y rosa que ilumina el horizonte. En primer plano, un sendero serpenteante cubierto de rocío que conduce hacia un valle montañoso en la distancia. A un lado del sendero, pequeñas flores de invierno brotan del suelo, simbolizando nuevos comienzos. En el cielo, unas pocas aves vuelan hacia el horizonte, evocando libertad y esperanza. Todo el ambiente transmite frescura, optimismo y posibilidades infinitas. Estilo realista, con atención a los detalles naturales y un uso suave de la luz para crear una atmósfera inspiradora

El segundo prompt, sería:

Un amanecer radiante ilumina un amplio paisaje con un cielo en tonos cálidos de naranja, dorado y rosa. En primer plano, una joven de cabello suelto, vestida con un abrigo ligero y una bufanda, está de pie al borde de un sendero serpenteante cubierto de rocío. Ella mira hacia el horizonte con una expresión de esperanza y determinación, sosteniendo un diario o un libro en sus manos, simbolizando sus planes para el futuro. A su alrededor, pequeñas flores de invierno comienzan a brotar del suelo, representando nuevos comienzos. En el fondo, montañas suaves y un valle iluminado por los primeros rayos del sol completan la escena. Todo el ambiente es sereno, fresco y lleno de posibilidades, con un estilo realista y detalles cuidadosos en la luz y el paisaje

Enero es reconocido como un símbolo de nuevos comienzos o nuevos horizontes y, en general, de renovación, tal como lo presenta la imagen generada por ChatGPT, que Gemini 1.5 Flash describe como una composición surrealista y futurista que combina elementos clásicos y modernos y una conexión entre lo natural y lo tecnológico.

Boletín 6 - Enero 2025

Creando un artículo con STORM de la Universidad de Stanford

Storm es un prototipo de investigación lanzado en junio de 2024, cuyo propósito es aplicar modelos de lenguaje amplios para escribir artículos extensos, bien fundamentados y organizados desde cero, con una amplitud y profundidad comparables a las páginas de Wikipedia. En septiembre de 2024, lanzan el modelo Co-STORM en el que participan varios bots y un moderador para generar el artículo.

STORM es un sistema de escritura para la síntesis de esquemas de temas mediante la recuperación y la formulación de preguntas desde múltiples perspectivas. Simulando conversaciones en las que se plantean preguntas a un experto (los bots) en el tema basándose en fuentes confiables de Internet, seleccionando la información recopilada para crear un esquema.

Boletín 6 - Enero 2025

Hemos probado la herramienta, para generar dos artículos. El primero responde a la siguiente indicación: "Describe los LLM más populares en 2024 y cuáles son los más confiables". Dado que para Colombia no está disponible la herramienta, usamos la VPN del navegador Opera, tal como se muestra en el siguiente video:

Dado el tema, el sistema recopila referencias de un corpus grande (24 referencias) y genera un esquema; luego, genera un artículo completo con citas, tal como se ve en el video.

La indicación solo se acepta en inglés, que para el segundo artículo fue "The meaning of January as a month of 'new horizons'", artículo que presentamos a continuación y traducido al español (convertido a HTML5 por IDR Solutions).

Boletín 6 - Enero 2025

Contando historias con Mootion y Magic Light

El storytelling es el arte de contar historias con el propósito de conectar emocionalmente con una audiencia. Desde tiempos antiguos, las historias han sido un medio fundamental para transmitir conocimiento, valores y emociones. En la actualidad, el storytelling se ha convertido en una herramienta esencial en múltiples campos, como el marketing, la educación, el entretenimiento y el diseño de experiencias digitales.

Una historia efectiva suele seguir una estructura que incluye personajes, un conflicto o desafío, y una resolución. Con el avance de la inteligencia artificial, se han desarrollado herramientas que facilitan la creación de historias, no solo en texto, sino también en formatos visuales y audiovisuales. Esto permite a creadores y empresas generar contenido atractivo de manera eficiente y personalizada.

En este apartado, presentamos dos historias generadas con Mootion y Magic Light. La herramienta de IA Mootion, ya la habíamos presentado en el boletín 2 de septiembre de 2024, pero ahora la usamos para compararla con Magic Light.

Una primera diferencia es la marca de agua que pone Mootion (antes no lo hacía) en el plan libre, algo que no ocurre con Magic Light. Pero, la más significativa es la consistencia de los personajes en Magic Light. En el siguiente video, puedes observar cómo se genera una historia con esta herramienta.

Boletín 6 - Enero 2025

Para nuestras dos historias, le dimos a las dos herramientas el segundo prompt descrito al inicio de este boletín: "Un amanecer radiante ilumina un amplio paisaje con un cielo en tonos cálidos de naranja, dorado y rosa. En primer plano, una joven de cabello suelto, vestida con un abrigo ligero y una bufanda, está de pie al borde de un sendero serpenteante cubierto de rocío. Ella mira hacia el horizonte con una expresión de esperanza y determinación, sosteniendo un diario o un libro en sus manos, simbolizando sus planes para el futuro. A su alrededor, pequeñas flores de invierno comienzan a brotar del suelo, representando nuevos comienzos..."

A continuación, presentamos las dos historias obtenidas.

Boletín 6 - Enero 2025

¿Imagen 3 o Grok-2?

El 21 de diciembre de 2024, Google anunciaba:

Imagen 3 es nuestro modelo de texto a imagen de mayor calidad, capaz de generar imágenes con mejores detalles, iluminación más rica y menos artefactos que distraen como nuestros modelos anteriores. Los evaluadores humanos prefieren la versión más nueva de Imagen 3 a las versiones anteriores del modelo y a otros modelos líderes de generación de imágenes (Google Deepmind).

Punto de referencia (benmarch) en el que Imagen 3 supera a grandes competidores en egenración de imágenes (datos de Google).

Boletín 6 - Enero 2025

Días antes, X anunciaba que la herramienta de IA Grok 2 (generación de imágenes desarrolladas por la empresa alemana Black Forest Labs) quedaba disponible para todos los usuarios de la red social.

Un primer ejercicio fue compararlas con el prompt: "A close-up, macro photography stock photo of a strawberry intricately sculpted into the shape of a hummingbird in mid-flight, its wings a blur as it sips nectar from a vibrant, tubular flower. The backdrop features a lush, colorful garden with a soft, bokeh effect, creating a dreamlike atmosphere. The image is exceptionally detailed and captured with a shallow depth of field, ensuring a razor-sharp focus on the strawberry-hummingbird and gentle fading of the background. The high resolution, professional photographers style, and soft lighting illuminate the scene in a very detailed manner, professional color grading amplifies the vibrant colors and creates an image with exceptional clarity. The depth of field makes the hummingbird and flower stand out starkly against the bokeh background":

Imagen 3 versus Grok 2.

Boletín 6 - Enero 2025

Las imágenes mostradas en la figura anterior son bastante buenas, pero con mejor calidad en la de Imagen 3, lo cual confirma, en parte, los resultados mostrados en la Figura 1.

Un primer problema que detectamos en Imagen 3, es el sesgo presentado para generar imágenes con personas, por lo que en el prompt "un sauna con cuatro personas y un texto que dice 'Sauna muy caliente'", tuvimos que quitar "con cuatro personas" para generar la imagen con Imagen 3Google ha anunciado "Pronto se podrán generar imágenes de personas en Gemini Advanced."..

Imagen 3 versus Grok 2 - sesgo: personas.

La mayoría de los modelos de IA de generación de imágenes más importantes (como Imagen 3) están diseñados para rechazar solicitudes de imágenes que muestren contenido violento, sexual o políticamente explosivo. Sin embargo, Grok-2 parece estar mucho

Boletín 6 - Enero 2025

menos limitado. Esto no es sorprendente, dada la postura indulgente de su propietario, Elon Musk, sobre la moderación de contenido y su desagrado por la corrección política (The Drum News).

Esta falta de censura en Grok 2, nos permitió generar imágenes con personajes famosos, tal como se muestra en la siguiente presentación interactiva:

Boletín 6 - Enero 2025

Finalmente, generamos imágenes con indicaciones tomadas de un artículo de Meri CreativAI. Los prompt, son los siguientes:

Una gigantesca concha de caracol bioluminiscente hecha de vidrio, con una ciudad brillante en su interior, viajando a través de un océano.
Una ciudad donde todos los edificios tienen forma de libros, con palabras brillantes grabadas en las ventanas, ilustración de pintura al óleo moderna.
Una calle vacía, cubierta de charcos, iluminada por orbes flotantes, el pavimento refleja universos paralelos, con estrellas y galaxias y remolinos de luz.
Una isla flotante hecha de nubes, con cascadas que se derraman en la luz del sol sobre un lago resplandeciente.
Una hermosa máquina de escribir vintage de color azul que escribe humo brillante, formando el texto "Novedades IAGen" que flota en el aire.
De pie afuera en un día nevado, un pequeño muñeco de nieve juguetón parece contento con su cálida bufanda roja, animación 3D, entorno de bosque nevado.
Una pintura al óleo contemporánea con un orgulloso perro marrón sosteniendo un pez en la boca, una representación linda, un pequeño estanque en el fondo.
Un árbol que crece a partir de un orbe de vidrio flotante, con raíces que forman un candelabro brillante que cuelga a su alrededor, luces brillantes y un entorno surrealista.

Las imágenes, correspondientes a cada prompt, las puedes ver en el siguiente objeto interactivo (haz clic sobre ellas, para verlas en tamaño más grande).

Boletín 6 - Enero 2025

Anima personajes con Adobe Express usando voces de ElevenLabs

Anima rápidamente un personaje de forma gratuita utilizando tu propio audio o grabación. Crear animaciones nunca ha sido tan fácil (Adobe).

Usar la aplicación gratuita de Adobe "Personajes animados", es algo bastante sencillo, pues solo basta con elegir un personaje y subir un audio o video de no más de dos minutos.

Existe una gran variedad de personajes: humanos, animales, robots, emojis, entre otros, además de poder elegir el fondo y la relación de aspecto, en especial para las redes sociales como Instagram, TikTok, YouTube, etc.

Para el caso de los audios, hemos usado ElevenLabs con las voces de Alice, Bill y Laura. Las animaciones las puedes ver y oir en el objeto interactivo.

Boletín 6 - Enero 2025

Usando el Canvas de Mistral

Mistral AI proporciona funciones en su plataforma Le Chat, que incluyen Canvas, búsqueda en Internet, cargas de PDF y generación de imágenes con el reconocido modelo Flux, todas ellas reflejando las capacidades de ChatGPT, ¡y son completamente gratuitas! (Zijian Yang).

Chatbots personalizados

Para usar el Canvas, Mistral nos ha dado los siguientes pasos:

Inicia sesión en tu cuenta de Mistral y navega hasta la sección de "Canvas" en el menú principal.
Determina si el contenido que deseas crear o modificar es adecuado para un canvas. Esto incluye presentaciones orales, escritas, discursos, párrafos, esquemas, ensayos, diálogos, monólogos, artículos, memorandos, materiales de marketing, planes de negocio, diapositivas, etc.
Una vez generado el texto, puedes editarlo y mejorarlo en tiempo real, como si estuvieras utilizando un editor de texto visual.

LeChat comienza a generar el texto y, mientras lo hace, te permite editarlo, reescribirlo y dar instrucciones para que amplíe o modifique ciertas secciones (iartificial).

A continuación presentamos un video de un minuto, mostrando el uso del Canvas y la generación de una imagen.

Boletín 6 - Enero 2025

Imagen generada con Mistral.

Boletín 6 - Enero 2025

Las IA de razonamiento se enloquecen con un problema de Geometría

Al evaluar la última versión de Deepseek, que incluye razonamiento profundo y búsqueda en la web, nos encontramos con una respuesta errada a un problema de geometría. Tratamos de encontrar la respuesta correcta con otra IA, pero también se equivocó. En resumen, ChatGPT (versión libre), Claude 3.5 Sonnet, Gemini 2.0 flash, Mistral y Copilot de Microsoft dieron una respuesta equivocada.

El problema es el siguiente:

En el hexágono $DEFGHI$, Daniel y sus amigos dibujaron el triángulo $ABC$ trazando rectas perpendi- culares a los lados del hexágono en los vértices $F, D$ y $H$. Luego trazaron perpendiculares a estas, desde los vértices $E, G$ y $I$. Si el área del hexágono es de $196\;cm^2$, ¿Cuál es área del triángulo $ABC$?

La respuesta correcta es $A_{ABC} = 24.5\;cm^2$, Deepseek y Claude dieron como resultado $49\;cm^2$, el doble de la respuesta correcta. ChatGPT y Mistral dividieron el área total entre seis, confundiendo el triángulo con el formado por los seis que se forman con el ángulo central del polígono. Pero, veamos en el siguiente video, los resultados obtenidos y la solución correcta.

Boletín 6 - Enero 2025

Hicimos, también, el ejercicio en el chat arena, con chatgpt-4o-latest-20241120 y gemini-2.0-flash-thinking-exp-1219, ambos con respuestas equivocadas.

Surge, entonces, la pregunta ¿Realmente, pueden razonar las IA?

Boletín 6 - Enero 2025

Sonus-1: una nueva era en LLM de razonamiento

En este mes ha sido lanzado Sonus-1, un LLM que promete mucho; sin embargo, su origen es desconocido, incluso la misma IA manifiesta no saber nada sobre Sonus AI o de la Inteligencia artificial de Rubik, que es como se presentan.

Los modelos que ofrece Sonus-1, son:

Sonus-1 Mini (Rápido). Optimizado para velocidad y eficiencia, ideal para tareas donde las respuestas rápidas y el bajo costo son primordiales.
Sonus-1 Air (Calidad moderada). Un modelo equilibrado que ofrece una buena combinación de rendimiento y uso de recursos, adecuado para una amplia variedad de tareas generales.
Sonus-1 Pro (Inteligente). Nuestro modelo de primer nivel, diseñado para manejar las tareas más exigentes y complejas, ofreciendo el más alto nivel de precisión y capacidad.
Sonus-1R (Razonamiento avanzado). Nuestro modelo insignia mejorado con razonamiento en cadena de pensamiento, lo que le permite abordar problemas que requieren una inferencia y comprensión lógica más profunda.

A la fecha (12 de enero), todos los modelos están disponibles gratuitamente. Hemos probado con los modelos Pro y R.

Boletín 6 - Enero 2025

Una primera prueba fue usar el prompt "Dame 10 frases que terminen con la palabra manzana", obteniendo:

El jardín estaba lleno de árboles frutales que producían manzana.
La receta llamaba para utilizar una manzana.
El niño quería comer una manzana.
La manzana era la fruta favorita de todos.
Ella quería comprar una manzana para comer en el almuerzo.
El vendedor le ofreció una manzana fresca.
La manzana era la mejor opción para el postre.
El chef utilizó una manzana para elaborar el plato.
La manzana era la fruta más popular en la tienda.
El niño recibió una manzana como premio.

Este 30% de aciertos está muy por debajo de los aciertos logrados por otras IA, que contrasta con la afirmación Sonus-1 demuestra capacidades de rendimiento significativas, comparables a los modelos patentados más avanzados del mundo.

Recurrimos, entonces, al modelo de razonamiento Sonus-1R, al que le escribimos: "Revisa las frases anteriores y dime si son correctas a la solicitud '10 frases que terminan con la palabra manzana', de no ser así, corrige por favor", respondiendo:

Me disculpo por el error anterior. Al revisar las frases, noto que no todas terminan con la palabra "manzana" como se solicitó. Aquí te dejo 10 nuevas frases que sí terminan con la palabra "manzana":

Boletín 6 - Enero 2025

La fruta que elegí fue una manzana.
El regalo que recibió fue una manzana.
La opción que prefirió fue la manzana.
El objeto que había en la mesa era una manzana.
La cosa que más le gustaba era la manzana.
Lo que comería para merendar era una manzana.
El sabor que más le gustaba era el de la manzana.
La fruta que más le apetecía en ese momento era una manzana.
El alimento que necesitaba para tener energía era una manzana.
La mercancía que vendía el vendedor era una manzana.

La segunda prueba, obviamente, fue el problema de geometría del apartado anterior; para ello, le dimos la gráfica en un archivo PDF y le planteamos el problema. La respuesta obtenida, muy extensa por cierto, no daba respuesta al área solicitada; sin embargo, notamos que la IA se abstuvo de alucinar, como lo hicieron las anteriores. Algo curioso es la siguiente conclusión:

Basado en el análisis y considerando la necesidad de proporcionar una respuesta, aunque el análisis no condujo a una solución clara y directa, se podría considerar que el área del triángulo ABC es proporcional al área del hexágono, pero la proporción exacta no se ha determinado en este análisis.

Por lo tanto, sin una base sólida para calcular el área exacta del triángulo ABC a partir de la información proporcionada y considerando la complejidad del problema, cualquier respuesta numérica sería especulativa sin una propiedad geométrica específica que la sustente.

Boletín 6 - Enero 2025

De esta conclusión, destacamos dos afirmaciones. La primera, "...cualquier respuesta numérica sería especulativa...", que da cuenta de la tendencia a no alucinar. La segunda, "...se podría considerar que el área del triángulo ABC es proporcional al área del hexágono.", algo que nos llamó la atención, por lo que recurrimos a GeoeGebra, encontrando que la constante de proporcionalidad es $\frac18 = 0.125\approx 0.13$ (En el objeto interactivo mueve el punto H o I).

Problema del triángulo y el hexágono .

Así las cosas, el problema del apartado anterior, se puede reformular como "En el hexágono $DEFGHI$ se dibujó el triángulo $ABC$

Boletín 6 - Enero 2025

trazando rectas perpendiculares a los lados del hexágono en los vértices $F, D$ y $H$. Luego se trazaron perpendiculares a estas, desde los vértices $E, G$ y $I$. Demuestra que área del triángulo es $\frac18$ del área del hexágono.

Hicimos la prueba con ChatGPT, Gemini 2.0 Flash Thinking y Deepseek (modo razonamiento). Deepseek, ingeniosamente, usó un círculo unitario, asignando coordenadas a los puntos y, luego de unos cálculos con ecuaciones, demostró lo solicitado.

Las otras IA, presentaron otro forma de alucinación; por ejemplo, ChatGPT inicia con algunas afirmaciones válidas como "El triángulo $ABC$ puede considerarse como formado por los puntos medios de los lados de 3 triángulos equiláteros del hexágono", pero luego da un salto injutificado a la conclusión.

En conclusión, podríamos afirmar, sin alucinar, que las IA de razonamiento "razonan sobre lo ya razonado... por un humano".

Boletín 6 - Enero 2025

El primer sistema de mezcla de agentes (MoA) del mundo

Estamos encantados de anunciar un avance revolucionario en la calidad, confiabilidad y confianza de la IA: Mezcla de agentes (MoA) de Genspark, como primer sistema MoA de producción del mundo.

Genspark reúne las capacidades de múltiples modelos de lenguaje de gran tamaño, modelos de generación de imágenes y herramientas de traducción para brindar respuestas que son altamente precisas y confiables en tareas de chat, imágenes y traducción. MoA es un enfoque revolucionario que combina la experiencia de múltiples modelos de IA, cada uno de los cuales aporta sus fortalezas únicas para crear resultados excepcionales, como un equipo de especialistas que trabajan juntos en armonía para lograr algo más grande de lo que podrían lograr solos (Genspark).

Este avance revolucionario fue anunciado el 18 de diciembre de 2024, que a enero de 2025 está en la versión Beta y abierto para cualquiera que ingrese con una cuenta de Google.

Un primer ejercicio fue generar imágenes con el primer prompt de la introducción de este boletín, usando "Mezcla de Agentes" (MoA), tamaño 16:9 y estilo realista, obteniendo cuatro imágenes, generadas con flux .1 dev, flux 1.1 Pro Ultra, Ideogram 2.0 y Recraft V3, tal como se muestra en la figura 5.

También es posible generar imágenes con un solo agente, incluyendo DALL-E 3. Los estilos a elegir son realista, dibujo animado, acuarela, anime, pintura al óleo, minimalista, 3D y arte pop, pero igual podemos escribirlo; por ejemplo, estilo Van Gogh.

Boletín 6 - Enero 2025

Imágenes generadas con la función "Mezcla de Expertos".

Genspark (Chispa genética) es un producto de la empresa MainFunc, fundada por exalumnos de Microsoft, Google y Baidu, apasionados por crear productos innovadores de IA de clase mundial para un mundo mejor. La empresa recaudó un total de 60 millones de dólares en su ronda inicial, tiene sus sedes en Palo Alto, California, y Singapur.

Un segundo ejercicio lo hicimos con el chat general, usando MoA. El prompt ingresado fue el problema de geometría de los apartados anteriores, solicitando la demostración, nos dieron respuesta los siguientes agentes: GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro y Reflection (figura 6). Reflection afirma que "hay 24 triángulos rectángulos congruentes en toda la figura y la coloreada tiene 3, por tanto la constante de proporcionalidad es 3/24".

Boletín 6 - Enero 2025

Un paréntesis...

José Galo, interesado en el problema del hexágono y el triángulo, hace una crítica a la afirmación "se podría considerar que el área del triángulo ABC es proporcional al área del hexágono":

Yo veo esto trivial, pues al cambiar H o I lo que haces es dibujar figuras semejantes (hexágono y triángulo interior) y por tanto la proporción de áreas es constante. Eso funcionaría si cambias el triángulo por cualquier otra figura interior y dibujas figuras semejantes a esas, guardarían una proporción.

Completamente de acuerdo con su observación. Pero Galo va más allá en sus observaciones, al no estar de acuerdo con la afirmación de la IA Reflection:

Un razonamiento con los 24 triángulos congruentes frente a los tres. Pero son equiláteros (no rectángulos como dice la IA) O 48 rectángulos frente a 6.

Su razonamiento se aprecia en la figura de arriba (haz clic sobre ella, para verla en un tamaño ampliado).

Galo, hace otro análisis gráfico, que podemos apreciar en la figura de la siguiente página.

Boletín 6 - Enero 2025

Respuestas generadas con la función "Mezcla de Expertos" en el chat general.

La aplicación ofrece otras herramientas como moda, traducción, búsqueda de datos, verificación de hechos, finanzas, viajes, productos y galería de imágenes, que puedes explorar.

Como tercer ejercicio, usamos la herramienta galería de imágenes, buscando imágenes sobre "amanecer y sendero", obteniendo un gran listado de imágenes obtenidas en repositorios como Pixabay, Pexels, Unplash y Freepik, muchas de ellas de descarga gratis. En el siguiente video, puedes ver el ejercicio.

Boletín 6 - Enero 2025

Novedades en modelos de generación de imágenes y videos

El año 2025 comienza con innovaciones significativas en el ámbito de las inteligencias artificiales generativas enfocadas en imágenes y videos. Este mes, las plataformas más destacadas, como Kaiber, Pixverse, Leonardo, Dreamina, Dzine, Luma, Grok, Imagen3 y ZebraCat, han presentado avances que prometen transformar la creatividad digital. Desde herramientas más accesibles para artistas hasta sistemas sofisticados para la creación de contenido hiperrealista, estas tecnologías están redefiniendo los límites de lo posible en el diseño y la producción multimedia.

Una ilustración vibrante y futurista que represente las innovaciones en inteligencia artificial generativa de imagen y video en enero de 2025 (ChatGPT).

Boletín 6 - Enero 2025

Acelera tu creatividad con Flow State. Con una simple indicación, Flow State ofrece un flujo de posibilidades visuales que le ayudarán a conseguir la imagen perfecta más rápido (Leonardo.Ai).

La nueva herramienta de Leonardo, Flow State, te permite generar una gran cantidad de imágenes de una forma completamente nueva.

¿Por qué imágenes infinitas? Porque las generaciones llenarán la página y Flow State seguirá generando más a medida que nos desplacemos hacia abajo; obviamente, lo de infinito es una exageración o una hipérbole para llamar tu atención... ¡pero, funciona!, si no, no estarías aquí; sin embargo, lo que hace Leonardo es asombroso.

Por ejemplo, también podemos generar imágenes consistentes, pues si vemos una imagen que nos guste y deseamos más variaciones que se vean estilísticamente similares, simplemente hacemos clic en el botón More Like This. Esto generará una nueva secuencia de imágenes que utilizan configuraciones de estilo basadas en la imagen seleccionada (Leonardo.Ai).

Pero, eso no es todo, también podemos mejorar la imagen que seleccionemos en alta resolución con Upscaler; sin embargo, esta opción solo está disponible en el plan de pago.

En el siguiente video, puedes observar cómo generar imágenes con la herramienta FlowState de Leonardo.

Boletín 6 - Enero 2025

En el video, pudiste observar que en la barra lateral izquierda, puedes seleccionar manualmente ajustes preestablecidos de estilo para cada uno de los 4 tipos: ambiente, iluminación, tipo disparo y tema de color.

Flow State es una herramienta de generación rápida de ideas que le permite generar imágenes en grandes cantidades y luego limitar sus preferencias visuales mediante la creación de variaciones basadas en el estilo de la imagen seleccionada. Flow State también incluye ajustes preestablecidos de estilo únicos que no están disponibles en el modo de generación de imágenes (Leonardo).

Boletín 6 - Enero 2025

ZebraCat es una nueva herramienta para crear vídeos.

Crear videos puede ser una molestia 😢, pero con Zebracat, ahora es fácil y divertido. A continuación se muestra una descripción rápida de lo que ofrece Zebracat:

👉 Convierte cualquier texto en vídeos: indicaciones, guiones o incluso artículos de blog.

👉 Voces en off de IA similares a las humanas: disponibles en más de 80 idiomas para transmitir tu mensaje.

👉 Imágenes impresionantes: utiliza nuestras imágenes generadas por IA, contenido multimedia de archivo o carga tus propios clips en nuestro editor para crear los videos que imaginas.

En el plan gratuito, Zebracat te entrega 5 credits cada semana, que equivale un minuto de videos semanal, exportación con calidad 720p, cada video tiene un máximo de 30 segundos, disponibilidad de 80 idiomas y marca de agua en el video.

En nuestro ejercicio de prueba, generamos tres videos. El primero, de 13 segundos, fue en inglés. El segundo es un video de 30 segundos usando el primer prompt de este boletín y, el tercero, un video de 10 segundos con el prompt "un gato con botas negras caminando en el desierto". En la siguiente página, prsentamos los dos últimos videos.

Boletín 6 - Enero 2025

VidFul permite generar videos a partir de un texto o de una imagen.

Video con una imagen de Leonardo	Video a partir de una foto

Transforma texto e imágenes en videos impresionantes con la ayuda de Kling AI y Luma AI Dream Machine. Crea videos de alta calidad en solo unos clics, listos en alrededor de un minuto (vidFul).

Boletín 6 - Enero 2025

PixVerse, en su nueva versión, incluye:

Oleada muscular ¡Muestra tus músculos y atrae miradas!

Zona de animación. Anima en varios estilos.

Boletín 6 - Enero 2025

De los más de 30 estilos, hemos usado dos, uno de ellos con Volodímir Zelenski conviertiéndose en niño. A continuación, presentamos algunos videos generados.

Boletín 6 - Enero 2025

Hailuo AI ha lanzado dos nuevos modelos de generación de video, en el que se destaca el modelo S2V-01 con personajes consistentes con alta fidelidad y flexibilidad innovadora. El modelo I2v-01-live, por su parte, genera personajes suaves, vívidos y perfectos para ilustraciones 2D. El modelo de referencia de personajes de Hailuo AI (S2V-01) permite el reconocimiento de rasgos faciales a partir de fotos cargadas por los usuarios.

El modelo de referencia del personaje requiere una foto clara y reconocible del rostro del personaje que sirva como referencia para generar el rostro del personaje en el video. Actualmente, el modelo solo admite el reconocimiento facial de rostros humanos. Hailuo AI es capaz de identificar con precisión los rasgos faciales de distintos géneros, edades y etnias. Para lograr resultados óptimos en la generación de videos, asegúrese de que la imagen cargada cumpla con las especificaciones necesarias, incluidos los ángulos y las condiciones de iluminación adecuados (Hailuo AI).

En la siguiente presentación, puedes ver algunos videos con el personaje de la foto de arriba.

Boletín 6 - Enero 2025

En cada diapositiva, haz clic sobre ella para que se reproduzca el video, o amplía la presentación a tamaño de pantalla.

Boletín 6 - Enero 2025

Stylar fue una herramienta avanzada de diseño gráfico impulsada por IA. Estaba diseñada para ser fácil de usar tanto por profesionales como por principiantes. Ahora, se ha convertido en Dzine, con la siguiente presentación:

La herramienta de imagen y diseño de IA más controlable. Impulsa las ideas de los creadores a imágenes profesionales con IA generativa. Ayuda a los diseñadores a reducir su tiempo de trabajo repetitivo 10 veces.

Las herramientas que ofrece esta plataforma, en el plan libre, son: Image-to-Image, Text-to-Image y Consistent Character.

Las siguientes herramientas, solo son disponibles en el plan de pago: Image-to-Video , Text-to-Video, Insert Object, AI Eraser, Expand, Enhance y Face Swap.

Con la herramienta Image to Image, es posible usar el renderizado de bocetos, que presentaremos, con otra herramientas, en un apartado posterior, dirigido a arquitectos.

En la siguiente presentación, puedes observar algunas imágenes, generadas con la herramienta Text to Image y el segundo prompt de este boletín. El modelo usado fue Dzine Realistic v2.

Boletín 6 - Enero 2025

Presentamos Ray2, una nueva frontera en modelos generativos de video. Con una escala de cálculo de 10x, Ray2 crea videos realistas con movimiento natural y coherente, lo que permite nuevas libertades de expresión creativa y narración visual. Disponible ahora en https://lumalabs.ai/ray.

Boletín 6 - Enero 2025

Estructuras realistas, gran cinematografía, mejor tipografía y precisión del texto en imágenes generadas (Dreamina).

Boletín 6 - Enero 2025

¡Hailuo AI presenta trío de modelos de IA para rivalizar con los gigantes!

Hailuo AI ha lanzado tres modelos de inteligencia artificial diseñados para competir con los titanes de la industria, MiniMax-Text-01, MiniMax-VL-01 y T2A-01-HD, orientados a tareas de texto, multimodales y de audio. MiniMax-Text-01 tiene una innovadora ventana de contexto de 4 millones de tokens, que le permite procesar y analizar grandes cantidades de información, superando potencialmente a algunos de los modelos líderes de la industria en puntos de referencia específicos (OpenTools).

Rendimiento de MiniMax-Text-01 en los principales puntos de referencia académicos (MiniMax AI, 15 de enero de 2025).

Boletín 6 - Enero 2025

Se afirma que MiniMax-Text-01 supera a Gemini 2.0 Flash de Google, mientras que MiniMax-VL-01 supera a Claude 3.5 Sonnet de Anthropic.

Pantalla principal de MiniMax-Text-01 en Hailuo.

Pese a las buenas reseñas dadas al modelo LLM MiniMax-Text-0, falló en dos de tres pruebas que hicimos. Una de ellas fue la prueba de geometría, afirmando (alucinando) que el área del triángulo era $98 cm^2$. Ota prueba estaba relacionada con su ventana de contexto; para ello, subimos el libro "Diseño de contenidos digitales con inteligencia artificial", con 18MB de peso y cerca de 500 páginas, el cual no pudo leer, tarea que si hicieron Mistral large, NotebookLM y DeepSeek.

La prueba que aprobó con una precisión del 90%, fue la dada con la indicación: "Dame 10 frases que terminen con la palabra manzana".

Pero, estos resultados no significan que el modelo sea inferior a su competencia, la cual también ha fallado con estas pruebas.

Boletín 6 - Enero 2025

Novedades para arquitectos

En este apartado, presentamos las novedades de las plataformas de inteligencia artificial (IA), dzine y SeaArt, en la creación de renders arquitectónicos a partir de algunos bocetos (sketch), que hemos obtenido de Pinterest. Incluimos, además, las herramientas LookA AI, PromeAI y ReRender, para efectos de comparación.

dzine

En dzine, como lo dijimos en el apartado anterior, podemos usar la herramienta Image to Image, para el renderizado de bocetos o, si se prefiere, en la opción Product, seleccionamos la opción Render sketch.

Selección del renderizado de bocetos en dzine.

El procedimiento es sencillo, basta borrar la imagen que aparece por defecto, subir nuestro boceto, la descripción del renderizado (Edificio moderno junto a la playa, por ejemplo) y hacer clic en Generar.

Boletín 6 - Enero 2025

En el siguiente objeto interactivo, puede ver tres renderizados obtenidos con dzine. Desplaza la línea central, para que compares el boceto con el render. Lo puedes ver mejor en pantalla completa.

Se puede observar que el tercer boceto es algo confuso, por lo que el render no es el mejor.

SeaArt

En SeaArt, podemos hacer una búsqueda con la palabra "sketch" en AI Apps. Con la App de Ashen (One-click sketch to reality), hemos generado los renderizados que se observan en el siguiente objeto interactivo:

Boletín 6 - Enero 2025

LookX AI

LookX AI es una plataforma diseñada por arquitectos, esta plataforma permite a los usuarios utilizar imágenes de referencia y la IA para mejorar las indicaciones. La calidad del render es buena, con una iluminación dinámica y detalles en los materiales, se ha vuelto popular en redes sociales como Instagram y Twitter.

La herramienta permite generar hasta 100 renderizados en su plan libre.

El tiempo de renderizado es de aproximadamente un minuto. Los resultados generados son de buena calidad, excepto si se presenta confusión en el boceto suministrado; por ejemplo, en el siguiente objeto interactivo, el tercer boceto genera un renderizado confuso.

Boletín 6 - Enero 2025

ReRender AI

Otra opción de renderizado es la herramienta ReRender AI, que te permite tres renderizaciones diarias. Incluye una buena variedad de estilos.

Boletín 6 - Enero 2025

PromeAI

Boletín 6 - Enero 2025

Imágenes de Grok 2 en la ilusión de distorsión del rostro

En el libro Percepción visual, presentamos la ilusión The Flashed Face Distortion EffectCuando se presentan rostros normales rápidamente en la periferia visual, se los percibe como grotescos y distorsionados. Este fenómeno, “el efecto de distorsión de rostros iluminados” (FFDE, por sus siglas en inglés), es una poderosa ilusión que puede revelar propiedades importantes de cómo se codifican los rostros en la visión periférica (Balas and Pearson)., presentada por Jason Tangen, Sean Murphy y Matthew Thompson (The University of Queensland, Australia) en el evento Best Illusion of the Year, ocupando el segundo lugar en 2012.

En el siguiente video, se puede verificar la distorisión facial de artistas famosos; para ello, se debe fijar la mirada en la cruz y, para una mejor experiencia, ver el video en pantalla completa.

Las celebridades lindas se vuelven feas (Tangen, en YouTube.)

Boletín 6 - Enero 2025

Para nuestro ejercicio, generamos con Grok2 25 imágenes de los presidentes que han sido centro de titulares en las redes sociales o en otros medios de comunicación. Esta imágenes, las incluimos en el siguiente objeto interactivo, diseñado con el editor DescartesJS:

Como muchos descubrimientos científicos interesantes, este fue un accidente. Un estudiante universitario estaba trabajando en fotografías de rostros para un experimento no relacionado cuando de repente se sorprendió al ver rostros deformados que lo miraban (The Best illusion of the Year Contest).

¿Cuál presidente se deforma más?

Boletín 6 - Enero 2025

Red Panda AI versus Recraft V3

Boletín 6 - Enero 2025

Red Panda AI es un generador de imágenes de IA en línea gratuito que permite crear fácilmente arte asombroso, imágenes realistas y diseños únicos utilizando el modelo red_panda. Con indicaciones simples y procesamiento rápido, es perfecto para diseñadores, artistas y creativos que buscan una forma sencilla de generar imágenes en línea.

Generación de imágenes rápida y gratuita:El generador de imágenes Red Panda produce imágenes detalladas y precisas en aproximadamente 7 segundos. Con una gran capacidad para comprender e interpretar indicaciones complejas, se destaca por ofrecer resultados excelentes de manera constante en una variedad de estilos y temas artísticos.

Resultados de alta calidad y diversidad:El modelo utiliza algoritmos avanzados para generar imágenes visualmente impresionantes y realistas. Ya sea que estés buscando representaciones hiperrealistas, estilos artísticos como pintura al óleo o dibujo, o incluso imágenes abstractas, Red Panda AI no te decepcionará.

Flexibilidad y adaptabilidad: Desde gráficos para redes sociales e ilustraciones para blogs hasta campañas de marketing, Red Panda AI ofrece una solución versátil para cualquier ocasión. La plataforma admite una variedad de estilos, como acuarela, fotografía, entre otros (Red Panda AI).

Hemos generado imágenes con el modelo red_panda y con Recraft v3, que puedes comparar en las siguientes presentaciones interactivas, en las que Recraft v3 es muchos mejor en la incorporación de textos.

Boletín 6 - Enero 2025

Imágenes generadas con Red Panda AI

Boletín 6 - Enero 2025

Imágenes generadas con Recraft V3

Incluye tres imágenes generadas con Ideogram 2.0

Boletín 6 - Enero 2025

Podcast interactivo con Illuminate AI de Google

En el boletín 5 de diciembre de 2024, publicamos el artículo Podcast interactivo en NotebookLM. Google, también, ha publicado otra IA generativa para la producción de podcasts, se trata de Illuminate. En el siguiente video, puedes ver cómo se usa.

Illuminate aún es experimental, el producto podría sufrir muchos cambios a lo largo del proceso y podría tener funciones adicionales además de la generación de podcasts, como diferentes estilos de salida, como videos (Cornellius Yudha Wijaya).

Boletín 6 - Enero 2025

Los objetos 3D creados con Trellis

Microsoft presentó un nuevo método de generación 3D para la creación de objetos 3D versátiles y de alta calidad llamado Trellis. El modelo utiliza una representación latente estructurada unificada (SLAT) para decodificar en varios formatos, mediante la integración de cuadrículas 3D dispersas... La forma en que Trellis comprime la estructura y agrega detalles recuerda a cómo trabajan los artistas 3D profesionales. Sin embargo, a diferencia de los artistas humanos, Trellis lo hace en una fracción del tiempo (Jim Clyde Monge).

Boletín 6 - Enero 2025

¿ChatGPT?, ¿DeepSeek?... ¡Qwen 2.5 Plus!

Este apartado lo teníamos dedicado al nuevo modelo Qwen 2.5-Plus, pero al ingresar a la plataforma, nos encontramos con Qwen 2.5-Max. A la fecha, es posible usar, gratis e ilimitado, los modelos Qwen 2.5 Max, Plus, 14B-Instruct (con una ventana de contexto de un millón de tokens), VL-72B (lectura de imágenes), Coder-32B-Instruct y QVQ-72B (modelo de razonamiento). Incluso, es posible usar dos modelos simultáneamente.

Qwen 2.5-Max es multimodal, permitiendo generar imágenes como las mostradas en la presentación de la derecha, código (usando el render artifacts), o videos como:

La siguiente presentación interactiva, fue generada por Qwen 3.5 Coder-32B-Instruct. En el boletín de febrero, exploraremos a profundidad este nuevo modelo chino.

Boletín 6 - Enero 2025