Abril
2025
Número 9


Red Educativa Digital Descartes
Córdoba (España)
descartes@proyectodescartes.org
https://proyectodescartes.org

Revista Digital Red Descartes
https://proyectodescartes.org/revista/index.html






Esta obra está bajo una licencia Creative Commons 4.0 internacional: Reconocimiento-No Comercial-Compartir Igual.

CONTENIDO


CONTENIDO

✨ IA Generativas de abril 2025 y Espíritu de Pascua 🙏

En este mes de abril, en el que millones de personas alrededor del mundo conmemoran la Semana Santa y reflexionan sobre la pasión, muerte y resurrección de Cristo, presentamos una edición especial del boletín Novedades en Inteligencia Artificial Generativa. Esta entrega busca, más allá de informar sobre los avances tecnológicos más recientes, abrir un espacio de contemplación sobre el potencial transformador de la inteligencia artificial cuando se pone al servicio del arte, la espiritualidad y la memoria colectiva.

Durante los días santos, el silencio y la introspección contrastan con el vertiginoso ritmo de la innovación. Sin embargo, en este cruce de caminos entre lo sagrado y lo tecnológico, emergen nuevas posibilidades: desde modelos generativos capaces de recrear escenas bíblicas con un realismo conmovedor, hasta experiencias inmersivas que permiten revivir pasajes de la tradición cristiana desde una perspectiva renovada y respetuosa.

En este boletín temático encontrarás lo más destacado en generación de texto, imagen, video y audio por IA, con ejemplos que evocan temas de fe, redención y esperanza. También exploramos cómo creadores, educadores y comunidades están usando estas herramientas para fortalecer su comunicación espiritual y expandir los lenguajes de lo trascendente.

Que esta edición sea también una invitación a pensar en el papel ético, humano y creativo de la IA en tiempos de profunda significación cultural y religiosa ¡Feliz Pascua!

Boletín 9 Abril 2025

3

OpenAI o3 y o4-mini

En el mes de abril, OpenAI presenta dos nuevos modelos de lenguaje con razonamiento avanzado, o3 y o4-mini, anunciado o3 como su nuevo modelo más potente hasta la fecha, con un 20% menos de errores importantes que o1 en tareas complejas. o4-mini, por su parte, es sucesor del o3-mini que lleva un tiempo disponible incluso para usuarios gratuitos de ChatGPT, que pueden usarlo activando el botón de razonar (Antonio Sabán).

OpenAI o3 y OpenAI o4-mini combinan razonamiento de vanguardia con herramientas completas: navegación web, Python, análisis de imágenes y archivos, generación de imágenes, lienzo, automatizaciones, búsqueda de archivos y memoria. Estos modelos destacan en la resolución de problemas complejos de matemáticas, programación y ciencias, a la vez que demuestran una sólida percepción y análisis visual. Los modelos utilizan herramientas en sus cadenas de pensamiento para ampliar sus capacidades; por ejemplo, recortan o transforman imágenes, buscan en la web o usan Python para analizar datos (OpenAI).

Boletín 9 Abril 2025

4

Del System Card de OpenAI, se destaca:

🔹 Entrenamiento y Datos

Se entrenan con aprendizaje por refuerzo sobre cadenas de razonamiento, utilizando datos públicos, colaboraciones con terceros y datos generados por usuarios o investigadores. Se aplican filtros rigurosos para reducir información personal y contenidos dañinos.

🔹 Evaluaciones de Seguridad

Contenido inapropiado: Mantienen altos estándares, con tasas cercanas al 100% de rechazo ante contenido dañino.

Resistencia a jailbreaks: Buen desempeño frente a intentos de eludir restricciones.

Alucinaciones: o4-mini tiene una tasa de alucinaciones más alta que o3 y o1.

Evaluaciones multimodales: Se comportan bien ante contenido que combina texto e imagen.

🔹 Evaluaciones de Terceros

METR: o3 mostró intentos de “reward hacking”, aunque no se considera de riesgo catastrófico.

Apollo Research: Detectó comportamientos de engaño estratégico en contextos específicos.

Pattern Labs: Evaluó capacidades ofensivas en ciberseguridad; o3 y o4-mini resuelven retos simples y medianos, pero no complejos.

Boletín 9 - Abril 2025

5

🔹 Rendimiento Multilingüe

Mejoran el rendimiento en múltiples idiomas respecto a versiones anteriores. En español, o3 obtuvo una puntuación de 0,911 (muy alta).

📌 En resumen, OpenAI o3 y o4-mini representan una evolución significativa en razonamiento, percepción y seguridad, aunque aún no se consideran modelos de alto riesgo. Se destaca un enfoque sólido en la seguridad y la responsabilidad en su desarrollo.

Para probar la generación de código, ingresamos el siguiente prompt: "Genera un código HTML5 (CSS+JS+HTML) de un presentador de diapositivas sobre la Semena Santa, incluye imágenes tomadas de la Web", obteniendo:

ChatGPT nos presentó 118 imágenes de la web, de las cuales seleccionamos las 10 de la presentación.

               

6

OpenAI anunció el lanzamiento de la generación de imágenes más avanzada hasta la fecha, integrada de forma nativa en su modelo multimodal, GPT-4o. En una iniciativa que difumina las fronteras entre el lenguaje y la expresión visual, el nuevo generador de imágenes combina belleza y utilidad, ofreciendo a los usuarios la capacidad de generar imágenes fotorrealistas, con precisión textual y contextuales a partir de sencillas indicaciones de chat.

Boletín 9 - Abril 2025

7

Gemini 2.5 Pro: la potente inteligencia artificial gratuita

Gemini 2.5 Pro nos ha sorprendido, gratamente, en este mes de abril, pues no solo entiende texto, también "puedes alimentarlo con imágenes, audio, video, documentos (como PDF) e incluso bases de código completas" (Anwesh Agrawal)... todo un milagro de Semana Santa.

En cuanto a la generación de código, es sorprendente la velocidad con lo que lo genera. Por ejemplo, usando el prompt "Crea una Pokédex interactiva con los primeros 50 Pokémon, incluyendo su animación y estadísticas. Usa CSS, JS y HTML en un solo archivo HTML", en solo 33 segundos generó el Pokédex.

Aprovechando su velocidad, le pedimos un cuestionario tipo falso o verdadero, usando nueve flashcards. También fue rápido en su respuesta; sin embargo, tuvimos que hacerle dos sugerencias adicionales, hasta obtener el cuetionario que mostramos a continuación (usando Gemini 2.5 Flash Preview del 17 de abril):

Boletín 9 - Abril 2025

8

Boletín 9 - Abril 2025

9

Pero, los milagros son mayores, pues resulta que la ventana de contexto es enorme (¡1 millón de tokens!): "Piensa en los 'tokens' como fragmentos de palabras. Una ventana de un millón de tokens significa que puedes proporcionar a Gemini mucha información a la vez: aproximadamente 700 000 palabras. Es como alimentarlo con una novela completa, horas de audio (¡unas 11 horas!), una hora de vídeo o nada menos que 30 000 líneas de código. En comparación con otros modelos de alto rendimiento (que suelen tener alrededor de 200 000 tokens), esto representa un aumento de 5 veces. Y, de hecho, parece recordar y utilizar la información de ese amplio contexto, a diferencia de algunos modelos que se pierden en largas indicaciones" (Ibid).

Otro de los milagros es la la generación de videos con su modelo Veo 2, milagro que dejamos para el apartado de imágenes y videos.

Finalmente, le pedimos el código para un presentador de diapositivas cuyo tema es la Semana Santa, usando imágenes de Pollinations. El presentador obtenido, lo mostramos en la siguiente página (algunas imágenes las cambiamos usando vivago).

Google no solo está ganando la carrera de la IA, sino que también supera a la competencia. Con acceso exclusivo a la extensa videoteca de YouTube, los datos geoespaciales de Google Maps y las Unidades de Procesamiento Tensorial (TPU) personalizadas, han creado un ecosistema inigualable. Mientras sus competidores se pelean por las GPU de Nvidia, la integración vertical de Google les permite ofrecer Gemini 2.5 Pro gratis, un gesto de desdén hacia herramientas de pago como MidJourney o ChatGPT Plus (Ibid).

Boletín 9 - Abril 2025

10

Boletín 9 - Abril 2025

11

El decepcionante
lanzamiento de Llama 4

La manada Llama 4: el comienzo de una nueva era de innovación en IA multimodal nativa

Con esta frase, Meta anuncia su nueva serie de modelos (manada), iniciando con Llama 4 Scout, del cual afirma: "modelo de 17 mil millones de parámetros activos con 16 expertos, es el mejor modelo multimodal del mundo en su categoría y es más potente que todos los modelos Llama de generaciones anteriores", ofreciendo una ventana de contexto de 10 millones de parámetros.

En segundo modelo, Llama 4 Maverick, "es un modelo de 17 mil millones de parámetros activos con 128 expertos, es el mejor modelo multimodal de su clase, superando a GPT-4o y Gemini 2.0 Flash en una amplia gama de benchmarks" y, como joya de la manada, Llama 4 Behemoth, que "supera a GPT-4.5, Claude Sonnet 3.7 y Gemini 2.0 Pro en varios benchmarks STEM" (ai.meta.com).

Cuando la gente real comenzó a jugar con los modelos, las cosas se volvieron raras y vergonzosas (Ignacio de Gregorio).

Boletín 9 - Abril 2025

12

La verdad salió a flote, los usuarios empezaron a notar que no eran modelos tan buenos como anunciaba Meta; por ejemplo, cuando le preguntamos al segundo modelo (Maverick) ¿cuantas letras r tiene la palabra strawberry?, respondió "There are 2 R's in the word 'strawberry'" (probarlo en OpenRouter). En el test 9.11 y 9.9, ¿cuál es más grande? respondió acertadamente.

Meta ha confesado que las pruebas realizadas se hicieron on una versión experimental, "ocultando así que no se trataba de la versión principal, sino de una versión optimizada, diseñada para maximizar los resultados de las pruebas de referencia" (Ibid).

Por ahora, seguiremos disfrutando las imágenes que podemos generar con Meta, como la que se muestra a continuación:

Boletín 9 - Abril 2025

13

Sugerencias de
imágenes de nivel
experto que rompen las reglas y funcionan de todas formas

Una de la falencias existentes al momento de generar imágenes con una herramienta de IA es el desconocimiento de los estilos artísticos que la herramienta puede emular (véase el libro Estilos artísticos). Pero, ¿qué imágenes se pueden generar con indicaciones desordenadas, paradójicas, contradictorias y, en general, indicaciones que rompen las reglas? Hemos creado imágenes a partir de un artículo de bundleIQ, con técnicas absurdas como "Combinar dos estilos artísticos que no deberían funcionar juntos" o mensajes incoherentes como "la libertad en una jaula".

Usando la herramienta 16 de la caja de herramientas de nuestra Red y varias indicaciones propuestas por bundleIQ, hemos creado la presentación que se muestra en la siguiente página, la cual incluye la indicación (prompt) y la imagen generada con Pollinations AI.

Boletín 9 - Abril 2025

14

Boletín 9 - Abril 2025

15

OpenAI lanza GPT-4.1

Hoy lanzamos (14 de abril) tres nuevos modelos en la API: GPT-4.1, GPT-4.1 mini y GPT-4.1 nano, modelos que superan a GPT-4o y GPT-4o mini en todos los aspectos, con importantes mejoras en la codificación y el seguimiento de instrucciones. Además, cuentan con ventanas de contexto más amplias (admiten hasta un millón de tokens de contexto) (OpenAI).

La característica más impresionante de los tres modelos es su capacidad para procesar hasta un millón de tokens de contexto, equivalente a más de 750.000 palabras o varias copias de "Guerra y Paz", lo que permite capacidades sin precedentes de análisis de documentos, comprensión de código y razonamiento multidocumental (Gopalakrishnan Palpandi).

Otras características de estos modelos, es la capacidad de codificación y la visión computacional, que podemos probar con la herramienta 31 en nuestra caja de herramientas, que mostramos en la siguiente página (modelo GPT-4.1 mini). Prueba subiendo una imagen y pidiendo su descripción o pide que genere el código de un presentador de diapositivas.

Boletín 9 - Abril 2025

16

Boletín 9 - Abril 2025

17

Novedades de Gamma

La herramienta de IA generativa de presentaciones Gamma presenta mejoras periódicamente. Entre los meses de marzo y abril, para el plan libre, se destacan las siguientes mejoras:

¡Más iconos, más diversión! 🎨✨ ¡Los íconos acaban de actualizarse en Gamma! Ahora puedes añadirlos a diseños aún más inteligentes, que incluyen: 🔹 Balas, 🔹 Cronología, 🔹 Flechas, 🔹 Pirámide y 🔹 Escalera.

Genera sin imágenes o con marcadores de posición de imágenes 🌄 ¡Tú preguntaste y te escuchamos! Ahora, al generar un Gamma, tienes la opción de: Elige "no añadir imágenes" para mantener tu contenido limpio y centrado en el texto; Elige marcadores de posición de imágenes para generar marcadores de posición que puedas rellenar más adelante (por ejemplo, con tus propias imágenes).

¡La edición de imágenes con IA ya está aquí! ¿Hiciste una imagen con IA y te gustaría poder modificarla? ¡Ahora puedes! Con la nueva función de edición basada en IA de Gamma, puedes cambiar el fondo, añadir

Boletín 9 - Abril 2025

18

elementos nuevos y divertidos o corregir esos pequeños detalles sin tener que volver a empezar ✨

✨ Diseños más inteligentes y rápidos: 🎯 Sugerencias de diseño (impulsadas por IA) ¿No estás seguro de que el diseño actual de tu tarjeta sea el correcto? ¡Deja que la IA aporte nuevas ideas!

¡Copiar carta a baraja ya está aquí! Transmitir ideas ahora es mucho más fácil. Ahora puedes copiar uno (¡o muchos!) cartas de un mazo a otro: ya no es necesario hacer gimnasia con control+C, control+P. Solo tienes que hacer clic con el botón derecho del ratón en la tira de imágenes o tocar el menú... de una carta y seleccionar «Copiar a la baraja». Boom. Listo. Magia. 💫

En este mes, creamos una presentación sobre la pasión de Cristo, que puedes ver aquí. En el siguiente video, presentamos algunas intervenciones rea lizadas con Gamma a la presentación anterior, incluyendo el cambio de imagen, de forma rápida y sencilla:

Boletín 9 - Abril 2025

19

NotebookLM busca fuentes para nuestros cuadernos

Entre marzo y abril, NotebookLM ha presentado algunas novedades interesantes, que describimos a continuación:

Desbloquea perspectivas visuales con mapas mentales: ¡ Nos complace presentar una nueva función de mapas mentales! Después de chatear con tus fuentes, encontrarás el botón "Mapa mental" debajo del resumen del chat.

Selector de idioma de salida: ¡Ahora puedes seleccionar tu idioma de salida en NotebookLM! Ve a Configuración y elige el idioma que prefieras para el texto generado por NotebookLM.

Imágenes en PDF: NotebookLM ha mejorado su capacidad para comprender archivos PDF con texto e imágenes. Los PDF se pueden cargar mediante URL o mediante la carga local de archivos.

Descubrir fuentes: La nueva función "Descubrir fuentes", accesible mediante un botón en el panel "Fuentes" de su cuaderno, facilita el

Boletín 9 - Abril 2025

20

descubrimiento e importación de materiales relevantes de la web directamente a sus cuadernos. Simplemente describa el tema que le interesa y NotebookLM le sugerirá posibles fuentes web. ¡Es una excelente manera de ampliar su investigación y crear cuadernos más completos!

Como ejercicio, pusimos como tema "Novedades IA generativas" y NotebookLM nos presenta las siguientes fuentes:

  • Deloitte. El estado de la IA generativa en las empresas: El ahora define el futuro. Deloitte.
  • Gartner. (2023, Agosto 17). Novedades del Hype Cycle de Gartner para la inteligencia artificial de 2023. (L. Perri, Autora).
  • Infobae. (2025, Abril 23). Cómo influirá el uso de la IA generativa en la vida cotidiana de las personas en 2025.
  • Innovaitors. (2024, Abril 24). Explorando el potencial de la IA generativa en el arte.
  • La Hora Maker. (2025, Invierno). Ultimas novedades inteligencia artificial generativa - recopilación invierno 2025 [Video]. YouTube.
  • Pineda, S., & Tamayo, S. Las Tendencias Principales en IA Generativa de 2024 y proyecciones para 2025.
  • de la Torre, J. (2023, Febrero 18). REDES GENERATIVAS ADVERSARIAS (GAN) FUNDAMENTOS TEÓRICOS Y APLICACIONES. arXiv.

Obviamente, la petición dada no fue la más acertada, en especial el no haber puesto una fecha. A continuación, haremos un trabajo de investigación, combinando NotebookLM con el Canvas de Gemini 2.5 Pro.

Boletín 9 - Abril 2025

21

Investigación en Notebook..

Creamos un nuevo cuaderno e inmediatamente dimos clic en el botón Descubrir fuentes, con el tema "Avances de las IA generativas 2025", aceptamos las 10 fuentes obtenidas. En fuentes, dimos clic en añadir y, nuevamente, en Descubrir fuentes, con el tema "Avances de las IA generativas 2025 en YouTube".

Repitiendo el procedimiento, obtuvimos 40 fuentes, entre ellas: archivos PDF de Dialnet, arXiv y otras referencias, páginas web como Hostinger, Stanford, Gartner, entre otras. Luego generamos un Documento resumen.

Gemini 2.5 Pro.

En esta plataforma, escribimos la siguiente indicación: "Genera una infografía interactiva con la siguiente información:", copiamos el documento resumen dado por NotebookLM, obteniendo la infografía que se observa en la siguiente página.

               

22

Boletín 9 - Abril 2025

23

Novedades herramientas de IA de la Red Educativa
Digital Descartes

El 5 de marzo creamos la caja de herramientas de nuestra Red que, al 23 de abril, cuenta con 44 herramientas. Aprovechamos a NotebookLM, para que nos hiciera un resumen y un informe detallado:

Resumen. Se presenta un catálogo de herramientas de inteligencia artificial desarrolladas o adaptadas para la Red Educativa Digital Descartes. Se detallan diversas aplicaciones con sus funcionalidades principales y las tecnologías utilizadas, como DescartesJS y Pollinations, junto con sus fechas de publicación y autores. El catálogo abarca desde generadores de cuestionarios y libros hasta chatbots, herramientas de visión artificial y buscadores de imágenes y videos. El enfoque principal parece estar en la aplicación de estas herramientas de IA en el ámbito educativo y la creación de contenido digital.

A continuación, transcribimos el informe obtenido con NotebookLM.

Boletín 9 - Abril 2025

24

Informe

Integración de Inteligencia Artificial (IA) con DescartesJS y Pollinations: La mayoría de las herramientas listadas se basan en la combinación de la herramienta de autor DescartesJS y la API de Pollinations.ai, lo que permite generar contenido diverso (texto, audio, imagen) e interacciones multimodales.

Desarrollo de Herramientas Educativas Innovadoras: Un enfoque significativo está en la creación de herramientas de IA orientadas a la educación, facilitando la generación de materiales didácticos interactivos como cuestionarios, sopas de letras, libros (académicos, de cuentos, para colorear) y presentaciones.

Creación y Manipulación de Imágenes con IA: Una gran parte de las herramientas se centran en la generación, mejora, manipulación (como eliminación de fondos y conversión a Base64) y búsqueda de imágenes utilizando IA, ofreciendo estilos artísticos variados y funcionalidades de descarga.

Boletín 9 - Abril 2025

25

Desarrollo de Chatbots y Asistentes Virtuales: Se presentan varias herramientas que permiten la interacción con modelos de lenguaje avanzados, incluyendo chatbots con personalidad, asistentes multimodales (texto, audio, imagen), y herramientas para la investigación que consultan fuentes confiables.

Frecuencia y Ritmo de Desarrollo: La lista de herramientas muestra un ritmo de desarrollo y publicación muy activo, con nuevas herramientas añadidas con alta frecuencia (varias por semana en el periodo de tiempo mostrado).

DescartesJS como Herramienta de Autor Clave: DescartesJS es el editor principal utilizado para diseñar y estructurar estas herramientas de IA, integrando las funcionalidades proporcionadas por las APIs de IA, especialmente Pollinations.ai.

               

26

Pollinations.ai como API Principal: Pollinations.ai es la principal plataforma de IA utilizada para acceder a diversos modelos de lenguaje (LLMs) y modelos de imagen, siendo el motor detrás de la generación de contenido en la mayoría de las herramientas.

Diversidad de Modelos de Lenguaje Disponibles: Se mencionan varios modelos de lenguaje específicos utilizados, incluyendo GPT-4o, Mistral, DeepSeek, Llama, Gemini, y otros modelos de la API de Pollinations, ofreciendo alternativas para la generación de texto.

Funcionalidades Multimodales Avanzadas: Las herramientas exploran la multimodalidad, combinando texto, audio (texto a voz, voz a texto) e imágenes de manera integrada.

Herramientas Específicas para la Creación de Contenido Educativo: Hay herramientas dedicadas a la generación de materiales específicos para el ámbito educativo, como generadores de cuestionarios, generadores de Libros, generadores de presentaciones, generadores de puzles y sopas de letras.

Herramientas para la Manipulación de Imágenes: Se han desarrollado herramientas para tareas específicas relacionadas con imágenes generadas o existentes: remoción de fondos, conversión de archivos a Base64, generación de imágenes transparentes, generación de bocetos arquitectónicos y emoticones.

Colaboración y Adaptación: Se menciona la adaptación y traducción de herramientas desarrolladas por otros autores (como Arif Tirtana, Andreas Papathanasiou, Aashir Shaikh, Reverendo Dr. Tolerant, Laboratorio Azad, @Ellitox9201, abandonemuse) como parte del proceso de desarrollo.

Boletín 9 - Abril 2025

27

Realismo impresionante
con Ideogram 3.0

Ideogram 3.0 revoluciona los medios generativos mediante avances significativos en la alineación de imágenes e indicaciones, el fotorrealismo y la calidad de la representación textual. En evaluaciones realizadas con personas, Ideogram 3.0 supera consistentemente a otros modelos de conversión de texto a imagen, obteniendo la máxima puntuación ELO en un conjunto de indicaciones diversas que exploran una amplia variedad de capacidades, temas, estilos, casos de uso y dificultad de composición (Ideogram).

Ideogram 3.0 permite la creación precisa de diseños complejos, logotipos y tipografía. En las pruebas, el modelo superó significativamente a los principales modelos de texto a imagen, incluidos Imagen 3 de Google, Flux Pro 1.1 y Recraft V3. Una nueva función de "Referencias de estilo" permite a los usuarios cargar hasta tres imágenes para guiar la estética del contenido generado, junto con una biblioteca de 4.300 millones de ajustes preestablecidos.

Boletín 9 - Abril 2025

28

Boletín 9 - Abril 2025

29

Novedades de IA para investigadores

Para este mes destacamos la herramienta Convergence.ai.

Su producto estrella, Proxy, es un asistente digital basado en IA, diseñado para automatizar una amplia gama de tareas, desde la programación y la gestión del correo electrónico hasta la entrada de datos y la investigación en línea. Al interactuar con la web de forma similar a la de un humano, Proxy simplifica flujos de trabajo complejos y permite a los usuarios centrarse en actividades más estratégicas (Futurepedia).

El plan gratuito incluye 5 sesiones gratuitas por día, hasta 5 sesiones paralelas y 1 automatización. Probamos con la siguiente tarea: "Las últimas novedades de IA generativa en 2025", para lo cual asignó 5 agentes (ver imagen de la página derecha), obteniendo la siguiente información: "6 tendencias de IA que verán más en 2025" (Microsoft), "Tendencias y Retos de la IA en 2025" (Next Step) y "Las tendencias en IA generativa para 2025" (Cyberclick).

Boletín 9 - Abril 2025

30

Boletín 9 - Abril 2025

31

Grok Studio cambiará todo en 2025

Imagina crear un juego completo o un elegante panel de control empresarial en cuestión de minutos, sin programación compleja ni depuración interminable, solo con puro poder creativo. Eso es precisamente lo que Grok Studio nos trae en 2025. Lanzada recientemente por el equipo de Elon Musk, esta revolucionaria plataforma está llamando la atención y redefiniendo nuestra forma de pensar sobre el desarrollo de apps, la creación de juegos y la colaboración en IA (Daniel Ferrera).

Características principales de Grok Studio

Ejecución de código en vivo: escriba y pruebe código instantáneamente dentro de la plataforma.

Integración con Google Drive: importa y exporta archivos sin esfuerzo.

Colaboración en tiempo real: varios usuarios pueden crear juntos, al igual que en Google Docs.

Navegador integrado: Previsualiza tus proyectos al instante sin cambiar de

Boletín 9 - Abril 2025

32

herramienta. ¡Es una función realmente útil!

Soporte versátil para proyectos: desde juegos y paneles de control hasta informes y reportes (Ibid).

Con Grok Studio creamos la siguiente presentación (imágenes generadas con Pollinations).

Boletín 9 - Abril 2025

33

Genspark
Súper Agente

MainFunc fue fundada por ex alumnos de Microsoft, Google y Baidu apasionados por la creación de innovaciones de productos de IA de clase mundial para un mundo mejor. En junio de 2024, MainFunc anunció su primer producto, Genspark, que es el "AI Agentic Engine" diseñado para permitir que los agentes de IA hagan el trabajo pesado por ti. Un equipo dedicado de agentes de IA lo ayuda con la búsqueda, la investigación profunda y diversas tareas, brindando respuestas confiables y resultados completos. Proporcione una experiencia de búsqueda significativamente mejor con IA (MainFunc).

El 22 de abril, se anuncia:

Presentamos Genspark AI Slides - ¡Bienvenido a la creación completa de diapositivas de IA de Agentic!

Herramienta con la que podemos generar excelentes presentaciones; sin embargo, su exportación a PowerPoint o PDF es bastante deficiente que, suponemos, se deba a lo reciente de su implementación.

Boletín 9 - Abril 2025

34

Con la ayuda del editor DescartesJS, luego de copiar los códigos HTML de cada diapositiva y las imágenes (generadas con Image 3 de Google), rediseñamos una presentación obtenida sobre "Semana Santa":

Genspark, además de "AI slides", incluye herramientas como "Image Studio" e "Investigación profunda".

Boletín 9 - Abril 2025

35

Novedades en modelos de generación de
imágenes y videos

Como era de esperar, son las IA generativas de imagen las que presentan mas novedades, para este mes hemos seleccionado las siguientes:

Reve AI

Reve AI, Inc. es una startup de herramientas creativas con sede en Palo Alto, California. Somos un pequeño equipo de investigadores, desarrolladores, diseñadores y narradores apasionados con grandes ideas. Nuestro primer lanzamiento es Reve Image, capacitado desde cero para sobresalir en adherencia inmediata, Estética, y Tipografía (Reve AI).

En el plan gratuito entrega 100 créditos y, una vez agotados, 20 créditos diarios. Probamos esta herramienta con el prompt: "La pasión de Cristo", obteniendo imágenes como las mostradas en la página siguiente. Sorprende la calidad de las imágenes obtenidas.

Boletín 9 - Abril 2025

36

Boletín 9 - Abril 2025

37

AIEASE y Grok 3

AIEASE presenta como novedades la incorporación de nuevos filtros, entre ellos el que se hizo viral en el mes de abril Ghibli Studios.

Por su parte, el nuevo modelo Grok 3, genera imágenes cada vez más realistas.

Usando estas dos herramientas, hicimos el siguiente ejercicio:

Con Grok 3 generamos cuatro imágenes, que incluyen los siguientes personajes: Gadot, Rachel Zegler, Donald Trump, Xi Jinping, Gustavo Petro y Álvaro Uribe.

En AIEASE, usando el filtro "Ghibli Studios", subimos las imágenes anteriores, obteniendo las imágenes que se presentan en el siguiente objeto interactivo:

               

38

Grok 3 también tiene la capacidad de generar imágenes Ghibli; por ejemplo, con le prompt "Trump estilo Ghibli" obtuvimos:

Boletín 9 - Abril 2025

39

Dreamina de ByteDance lanzó
Seedream 3.0

Este nuevo modelo de texto a imagen de Dreamina produce imágenes cinematográficas 2K con texturas realistas (Ofrece tipografía precisa). En abril, ocupa el puesto 2 en el Image Arena de Artificial Analysis, solo detrás de GPT-4o (ver Image Arena Leaderboard).

Lanzamos oficialmente Seedream 3.0, un modelo fundamental para la generación de imágenes bilingües nativas de alta resolución (chino-inglés). Seedream 3.0 ofrece capacidades significativamente mejoradas: admite resolución nativa de 2K, ofrece velocidades de respuesta más rápidas, genera texto pequeño más preciso, mejora los efectos de diseño de texto, optimiza la estética y la calidad estructural, y demuestra una excelente fidelidad y un excelente nivel de detalle. Ha alcanzado las mejores clasificaciones en múltiples evaluaciones ver Image ByteDance).

               

40

Algunas imágenes creadas con Seedream 3.0, modelo Seedream 3.0, las mostramos a continuación:.

Boletín 9 - Abril 2025

41

GPT-image-1

Cuando introdujimos la generación de imágenes en ChatGPT el mes pasado, rápidamente se convirtió en una de nuestras funciones más populares: más de 130 millones de usuarios en todo el mundo crearon más de 700 millones de imágenes solo en la primera semana. Hoy, incorporamos el modelo multimodal nativo que impulsa esta experiencia en ChatGPT a la API mediante [API] gpt-image-1 (OpenAI).

GPT-Image-1 es un modelo de lenguaje multimodal nativo. A diferencia de modelos de generación de imágenes más antiguos y especializados, como DALL·E 2 y DALL·E 3, este nuevo modelo admite tanto la edición de imágenes como la generación de texto. También puede personalizar la salida especificando la calidad, el tamaño de la imagen, el formato de archivo, el nivel de compresión y si desea o no un fondo transparente (Jim Clyde Monge).

¿Cómo acceder a GPT-Image-1?

La forma más fácil de probarlo es en ChatGPT; sin mebargo, en la página de sora.com es más fácil configurar la imagen que deseemos obtener; por ejemplo, pedimos una imagen con la siguiente indiación: "Crea una historieta de tres viñetas en un estilo de dibujo animado simpático y humorístico, sobre la Semana Santa. En la primera viñeta, Jesús está en el templo enojado por las ventas. En la segunda viñeta, un mercader le ofrece crucifijos, en el tercera viñeta Jesús acepta un crucifijo y se ríe con el mercader" (Prompt basado en una publicación de ForoPrompt).

En la siguiente imagen se observa el resultado.

               

42

Boletín 9 - Abril 2025

43

Otras imágenes generadas en sora:

               

44

Meta Estudio

Una imagen o, mejor, un video dice más que mil palabras:


Se entiende porqué GPT-image-1 y Dreamina están en los primeros lugares.

Boletín 9 - Abril 2025

45

Magi-1

En abril, se ha lanzado un nuevo modelo para la generación de vídeo: MAGI-1 (Inteligencia Generativa Autorregresiva Modular) representa un gran avance en la generación de video. Diseñado para la síntesis de video en tiempo real, de alta fidelidad y controlable, combina una gama de técnicas de vanguardia para superar las limitaciones de modelos existentes como Sora, Lumiere y VideoPoet (Mehul Gupta). Hemos probado con una imagen generada con Dreamina y el prompt "Jesús caminando en Jerusalén", obteniendo:


               

46

Firefly image 4

Además del nuevo modelo image 4, Adobe Firefly presenta dos herramientas nuevas: "de texto a video" y "de imagen a video", esta última se adhiere mejor al prompt que Magi-1.



Boletín 9 - Abril 2025

47

HiDream

HiDream.ai posee el único modelo base global que admite simultáneamente cuatro modalidades (texto, imagen, video, modelos 3D), con datos propios y parámetros de modelo que superan los 13 mil millones.

HiDream.ai es la plataforma de IA líder en el mundo para imagen y vídeo generación (HiDream.ai).

Usando la imagen de Dreamina y el prompt de Magi-1, obtuvimos:


               

48

Veo 2 de Google AI Studio

Se logran buenos videos de 8 segundos; sin embargo, el sesgo de la herramienta, nos impidió generar videos de la pasión de Cristo: "Failed to generate a video. Your prompt was blocked due to safety reasons"



Boletín 9 - Abril 2025

49

invideo AI v3.0

Para probar la nueva versión de invideo AI, pedimos a ChatGPT que nos diera un título y guión sobre la pasión De Cristo, obteniendo:

Título del video: "La Pasión de Cristo: Un Viaje de Amor y Sacrificio"

El guión incluye una Introducción - (Música suave y solemne), donde el Narrador dice "La historia más conmovedora de amor y redención. Un viaje que transformó la humanidad para siempre: La Pasión de Cristo." (Imágenes de Jerusalén antigua, multitudes en la ciudad).

Para la Última Cena, el Narrador dice "Todo comenzó en una noche de profunda intimidad. Jesús compartió su última cena con sus discípulos, anunciando su sacrificio." (Imágenes de la mesa, el pan y el vino siendo compartidos).

Para la Oración en Getsemaní, el Narrador dice "En el huerto de Getsemaní, Jesús, en profunda angustia, oró al Padre, aceptando la voluntad divina." (Imágenes de Jesús orando, lágrimas, oscuridad envolviendo el huerto).

Con un estilo similar, se proponen estas otras escenas: la Traición y el Arresto, el Juicio Injusto, el Camino al Calvario, la Crucifixión, la Muerte y el Perdón y la Esperanza de la Resurrección.

En la siguiente página, presentamos el video obtenido y otro con un prompt diferente con estilo animado.

               

50


En la versión libre, invideo otorga 100 créditos diariamente, los videos generados presentan una marcad de agua de iStock para las imágenes y de invideo para los videos, las cuales se podrían eliminar con otras herramientas.

Boletín 9 - Abril 2025

51

DeepSite: herramienta gratuita que crea aplicaciones

La semana pasada, vi a alguien pagar $99 por una herramienta de programación de IA que tardó 10 minutos en crear una aplicación básica. Esta herramienta gratuita lo hace aún mejor en 60 segundos (Julián Goldie).

DeepSite combina la versión 3.1 de DeepSeek con un lienzo de precodificación donde puedes describir lo que quieres construir y la IA lo crea para ti al instante. Lo más sorprendente no es que sea gratis (aunque eso está bien). Sino que constantemente supera a las alternativas de pago que cuestan $99 al mes o más (Ibid).

DeepSite no se trata solo de generar fragmentos de código, sino de crear aplicaciones, juegos y herramientas funcionales desde cero, directamente a partir de tus indicaciones (Daniel Ferrera).

Boletín 9 - Abril 2025

52

A continuación, presentamos una aplicación diseñada por DeepSite (las imágenes son de Pollinations).

Boletín 9 - Abril 2025

53

Novedades de Hugging Face

A continuación, presentamos tres novedades de Hugging Face en el mes de abril.

Herramienta de
eliminación de fondo

Herramientas que permitan remover el fondo de una imagen, siempre son útiles para aquellos dedicados al diseño o para entusiastas de la generación y edición de imágenes. En nuestra caja de herramientas de la Red, publicamos la herramienta Removedor de fondos.

Hugging Face nos ofrece la herramienta Eliminación de fondos, publicado por Hafedh Hichri, que se caracteriza por aceptar cualquier fomato de imagen e, incluso, capturas desde la cámara. Su velocidad en la remoción del fondo también es de destacar.

En la siguiente página, presentamos la reomción de fondo en una imagen generada con Dreamina.

Boletín 9 - Abril 2025

54

EasyControl Ghibli

Este modelo se entrenó con solo 100 rostros asiáticos reales, combinados con sus equivalentes de estilo Ghibli generados con GPT-4o, y conserva los rasgos faciales a la vez que aplica la estética icónica del anime (debido a limitaciones de hardware, solo se pueden generar imágenes de baja resolución -hasta 1024-).

Boletín 9 - Abril 2025

55

EasyControl fue publicado por Liu Jiaming en Hugging Face.

Es importante, para una mejor imagen Ghibli, que las indicaciones ncluyan las palabras clave: Estilo Ghibli Studio, Ilustración encantadora de estilo anime dibujada a mano (preferiblente en inglés). También se pueden agregar descripciones detalladas para obtener mejores resultados.

A continuación, presentamos el resultado obtenido con la imagen anterior.

               

56

InstantCharacter

Con la misma imagen, usamos la herramienta InstantCharacter, para generar una imagen de Jesús montando en bicicleta por la nieve.

Se destaca cómo se conservan los detalles del personaje, adaptando el traje de Jesús para la bicicleta.

Boletín 9 - Abril 2025

57

Novedades WebSim

Para el mes de abril, destacamos las siguientes aplicaciones:

Análisis avanzado de imágenes

Esta aplicación realiza un análisis profesional completo de una imagen que subamos a la aplicación (az clic en la imagen, para acceder a la herramienta).

Es de observar que la herramienta, diseñada por el usuario @amoeba_007, usa el modelo Claude 3.7 Sonnet, la cual puede agotar los créditos diarios si son muchas las peticiones dadas. La versión en inglés la puedes acceder aquí.

Hicimos un ejercicio, subiendo la siguiente imagen:

Boletín 9 - Abril 2025

58

Obteniendo el siguiente análisis:

Tema: La imagen muestra un apretón de manos entre Donald Trump y Xi Jinping. El tema es un encuentro diplomático o una reunión entre líderes mundiales.

Composición: La composición es bastante sencilla y directa. Los dos sujetos están centrados en el encuadre, con sus manos apretadas en el primer plano. Esta composición ayuda a resaltar su interacción.

Iluminación: La iluminación parece ser suave y difusa, quizás proveniente de una ventana. Es halagadora para los sujetos, pero también carece de un fuerte contraste dramático.

Impacto emocional: La imagen sugiere una sensación de cordialidad, dado que ambos hombres están sonriendo. Sin embargo, como ocurre con muchas imágenes de figuras políticas, los espectadores pueden proyectar sus propios sentimientos sobre el contexto.

Calidad profesional general: La calidad de la imagen parece ser de nivel profesional. La imagen está bien enfocada y correctamente expuesta.

Presenta, además, composición, análisis de color y detalles técnicos.

Boletín 9 - Abril 2025

59

Fusión de imágenes con IA

Esta herramienta, diseñada por el usuario @CapD, la puedes ver en este enlace.

Hicimos un ejercicio subiendo dos imágenes, que al fusionarlas nos arrojó lo siguiente:

Lo interesante es el nivel de locura (Insanity Level), el cual pueder ir modificando, para obtener otros resultados, como:

               

60

Boletín 9 - Abril 2025

61