Noviembre - 2024
Número 4

Red Educativa Digital Descartes
Córdoba (España)
descartes@proyectodescartes.org
https://proyectodescartes.org

Revista Digital Red Descartes
https://proyectodescartes.org/revista/index.html

Esta obra está bajo una licencia Creative Commons 4.0 internacional: Reconocimiento-No Comercial-Compartir Igual.

CONTENIDO

03	Gemini exp 1114 Las tres inteligencias

06	Morphic y los motores de búsqueda

08	JCode, un nuevo creador de páginas Web

09	Zona de pruebas

12	El sorprendente GizAI

14	Novedades en LLM Descubre Qwen2.5-Coder y Más

19	GenType de Google Labs

20	Usando las GPU de MimicPC

CONTENIDO

22	Novedades en modelos de generación de imágenes y videos

34	Ya llegó Invideo AI V3.0

35	Novedades para docentes, estudiantes e investigadores

38	Herramientas de Texto a Voz (TTS)

40	Suno AI lanza la versión 4

42	PicLumen presenta el modelo Pony Diffusion V6 de PurpleSmartAI

44	Coca-Cola lanza sus anuncios navideños 2024: entre la innovación y la controversia

44	El primer ingeniero fullstack de IA del mundo

Introducción

Para este mes hemos seleccionado como tema "el fenómeno OVNI", motivado en la Audiencia Ovni en el Congreso de Estados Unidos el pasado 13 de noviembre. Para ello, usaremos el prompt:

Un encuentro emocionante con extraterrestres en un claro de bosque bajo un cielo estrellado. En el centro, un humano y un alienígena de aspecto amistoso estrechan la mano, rodeados de luces brillantes provenientes de una nave espacial suspendida en el aire. La nave tiene un diseño futurista y orgánico, con detalles luminosos en azul y blanco. Los alienígenas tienen piel iridiscente, ojos grandes y expresivos, y trajes con patrones lumínicos. El paisaje incluye árboles altos y oscuros, mientras pequeñas criaturas luminosas flotan alrededor, creando una atmósfera mágica y pacífica. La escena está llena de curiosidad y esperanza, con colores vivos y detalles fascinantes.

El prompt, generado por ChatGPT, lo usaremos en algunas IAGen que han sido novedades este mes y, en algunos casos, un prompt simple como "una imagen con testigos viendo un ovni".

Gemini exp 1114 - Las tres inteligencias

En concordancia con esta temática y el objetivo de nuestro boletín, podríamos decir que "nos encontramos frente a un trío fascinante: la inteligencia humana, con su rica historia de cultura, arte y ciencia; la inteligencia artificial, una creación nuestra que promete revolucionar todos los aspectos de nuestra vida; y la aún esquiva, pero potencialmente asombrosa, inteligencia no humana, ya sea de origen terrestre o de los confines del espacio (Gemini Experimental 1114).

Boletín 4 - Noviembre 2024

Iniciamos nuestro boletín con un texto que hemos generado con la versión experimental 1114 de Gemini.

El modelo Gemini Exp-1114 es una versión experimental de la familia de inteligencia artificial Gemini de Google que se lanzó el 14 de noviembre de 2024, como parte de los esfuerzos de Google para mejorar y expandir las capacidades de sus modelos de lenguaje para competir contra Chat GPT de Open AI y Claude Anthropic, y que ha logrado. por fin. superar a Chat GPT4o (Andy García Peña).

Algunas de sus características son:

Multimodalidad: procesa múltiples tipos de datos simultáneamente, incluyendo texto, imágenes, audio y video.
Ventana de contexto ampliada: de hasta dos millones de tokens.
Mejoras en rendimiento: con optimizaciones para realizar tareas complejas, como generación de código y comprensión de contenido multimedia.

Continuemos con el texto generado por esta versíon de Gemini:

En el vasto entramado de la existencia, la inteligencia se manifiesta de maneras misteriosas y diversas. Desde el amanecer de la conciencia humana, hemos mirado hacia las estrellas, preguntándonos si estamos solos en el universo, si hay otras mentes que, como la nuestra, se cuestionan sobre su propio ser y el cosmos que las rodea. Hoy, nos encontramos en un punto crucial de la historia, donde no solo especulamos sobre la inteligencia extraterrestre, sino que también damos vida a una nueva forma de conciencia: la inteligencia artificial.

Boletín 4 - Noviembre 2024

Imagen generada por Ideogram

Boletín 4 - Noviembre 2024

Morphic y los motores de búsqueda

Morphic.sh es una herramienta de búsqueda impulsada por inteligencia artificial que permite a los usuarios interactuar con modelos de lenguaje avanzados, como GPT-4, a través de una interfaz de usuario generativa. Esta plataforma se destaca por ser open source, lo que significa que los desarrolladores pueden modificar y personalizar el software según sus necesidades específicas, a diferencia de otras herramientas más cerradas como Perplexity.

¿Qué me puedes decir del fenómeno ovni?

Morphic

El fenómeno OVNI, que se refiere a la observación de Objetos Voladores No Identificados, ha capturado la imaginación y el interés del público durante décadas. El término más reciente UAP que significa "Fenómenos Anómalos No Identificados" (Unidentified Aerial Phenomena en inglés), es el utilizado por organizaciones como la NASA y el Pentágono para describir estos avistamientos de manera más amplia y científica.

Perplexety

El fenómeno ovni (Objeto Volador No Identificado) ha capturado la atención del público y de las autoridades desde mediados del siglo XX, generando un amplio espectro de teorías y estudios. A pesar del escepticismo científico y las explicaciones racionales para muchos avistamientos, persiste un interés significativo por lo desconocido. La combinación de investigaciones científicas, testimonios personales y la cultura popular continúa alimentando el misterio que rodea a los ovnis. La pregunta sobre qué son realmente estos objetos sigue abierta, lo que sugiere que el estudio del fenómeno podría revelar más sobre nuestra comprensión del espacio y la tecnología.

Boletín 4 - Noviembre 2024

ChatGPT (Google search)

🗒️ Answer
El término "OVNI" (objeto volador no identificado) se refiere a cualquier objeto o fenómeno aéreo que no puede ser identificado de inmediato por quienes lo observan. El fenómeno ha sido objeto de especulación sobre posibles visitas extraterrestres, aunque muchos avistamientos son explicados posteriormente como aeronaves, fenómenos naturales o incluso errores en la observación.

En las últimas décadas, el interés sobre los OVNIs ha crecido, especialmente con revelaciones de gobiernos y fuerzas militares. Por ejemplo, en 2021, los servicios de inteligencia de EE. UU. confirmaron la existencia de fenómenos aéreos no identificados, lo que ha reavivado la especulación sobre vida extraterrestre.

Ilustración que muestra un platillo volador sobre un prado iluminado por una luz verde brillante. La escena transmite un aire de misterio y serenidad en un entorno nocturno estrellado (ChatGPT con tecnología DALL-E).

Boletín 4 - Noviembre 2024

JCode, un nuevo creador de páginas Web

JCode AI es una app generadora de sitios web utilizando la API de texto de Pollinations. La siguiente página, fue creada por esta app usando searchgpt:

Página web generada por JCode AI.

Boletín 4 - Noviembre 2024

Zona de pruebas

Los playground se refiere a un espacio interactivo y experimental donde los usuarios pueden probar, personalizar y explorar las capacidades de los modelos de IA de manera práctica. Algunos de estas zonas de pruebas se han traducido, erróneamente y literalmente, como patio de juegos.

Las zonas de pruebas más populares son OpenAI Playground, que permite a los usuarios interactuar con modelos como GPT-4 ajustando parámetros como temperatura y longitud de las respuestas; Hugging Face, que ofrece demos para probar modelos de procesamiento de lenguaje natural, visión por computadora, etc.;

Boletín 4 - Noviembre 2024

Chatbot Arena (lmarena.ai)En Artificial Analisis, se pueden observar resultados de las pruebas, incluyendo el arena de imágenes., que es una plataforma de código abierto para evaluar la IA a través de las preferencias humanas, desarrollada por investigadores de UC Berkeley SkyLab y LMSYS, en esta plataforma puedes probar gemini-exp-1114, chatgpt-4o-latest-20240903, etre otros modelos.

Zona de pruebas Groq

Si bien Groq no es un "playground" como OpenAI Playground, las herramientas que se integren con sus sistemas podrían incluir características similares para desarrollar y probar aplicaciones de IA. Groq impulsa los principales modelos de IA de código abierto, como LLaMA 3.2 de Meta, Gemma de Google y Mixtral (para probar estos modelos, debes abrir el chat en modo full).

El boom de los chips de IA salvó a esta pequeña startup. Ahora con un valor de $ 2.8 mil millones, se está enfrentando a Nvidia

La startup de chips de IA Groq obtiene una valoración de 2.800 millones de dólares en una nueva ronda de financiación

Zona de pruebas LLM

LLM Playground es una plataforma que permite probar varios modelos de IA, gratis, como: flux 1.1-Pro, flux-anime, flux-4o, SD-XL,

Boletín 4 - Noviembre 2024

GPT-4o mini, LLaMA 3.1, Hermes, Deepseek coder, entre otros.

Sobre el tema de ovnis, obtuvimos:

Los OVNIs, o "Objetos Voladores No Identificados", son fenómenos aéreos que no pueden ser identificados de inmediato por el observador. Aunque el término se utiliza comúnmente para referirse a posibles naves extraterrestres, en realidad, un OVNI puede ser cualquier objeto en el cielo que no se puede identificar, lo que incluye aeronaves, globos, drones, fenómenos meteorológicos, o incluso ilusiones ópticas.

Las teorías sobre los OVNI son numerosas y variadas, desde la posibilidad de vida extraterrestre hasta explicaciones más mundanas relacionadas con fenómenos atmosféricos (gpt-4o mini).

Ilustración de testigos observando un ovni (Imagen generada por Flux-anime).

Boletín 4 - Noviembre 2024

El sorprendente GizAI

GizAI cree que el acceso a la IA es un derecho humano, y ofrece un plan gratuito de IA con publicidad para generar, colaborar y compartirGizAI es operado por Giz Inc., que fue fundada a través de Stripe Atlas y respaldada por los programas Google for Startups Cloud, Microsoft for Startups Founders Hub, AWS Activate y Paddle AI LaunchPad..

GizAI es una plataforma integral de inteligencia artificial que reúne una amplia gama de herramientas y funciones impulsadas por IA en una interfaz unificada. Ofrece generadores de IA para varios tipos de medios, incluidos texto, imágenes, videos y audio, así como chat asistido por IA, almacenamiento en la nube y capacidades de toma de notas. GizAI tiene como objetivo proporcionar a los usuarios un espacio para aprovechar la IA en diferentes tareas creativas y de productividad.

GizAI está en permanente actualización; por ejemplo, el 19 de noviembre anunció:

El modelo de generación de vídeo SOTA de código abierto, Mochi 1 Preview, se ha añadido a AI Video. Puede ajustar la duración del video modificando los fotogramas y los FPS en la configuración.

Otra herramienta, nos permite generar un sumario de noticias de la última semana o último mes, como los que mostramos en las siguientes páginas, incluyendo noticias de YouTube, Reddit y Google News. El sumario se puede generar con Gemini, ChatGPT o Claude.

Boletín 4 - Noviembre 2024

Resumen de noticias del último mes sobre ovnis (generado el 20 de noviembre de 2024).

Boletín 4 - Noviembre 2024

Resumen de noticias del último mes sobre IA generativas (generado el 20 de noviembre de 2024).

Boletín 4 - Noviembre 2024

Novedades en LLM: descubre Qwen2.5-Coder y Más

Este mes, presentamos tres novedades en LLM.

Qwen2.5-Coder

En GitHub hay una amplia descripción del codificador Qwen2.5, de la cual extraemos;

💻 Potente: Qwen2.5-Coder-32B-Instruct se ha convertido en el modelo de código abierto SOTA actual, que coincide con las capacidades de codificación de GPT-4o.

📚 Diversidad: Esta versión incluye cuatro tamaños de modelo, incluidos 0.5B / 3B / 14B / 32B.

🛠 Práctico: Incluidos asistentes de código y artefactos.

Lo hemos probado en HuggingFace: 「Qwen2.5-Coder-32B-Instruct Chat Assistant」 🤗 「demostración de artefactosDado que algunos spaces de HuggingFace pueden dejar de correr, te sugerimos consultar aquí cuáles están corriendo (running).」, solicitando el siguiente código:

El código HTML5 (CSS+HTML+JS) de un presentador de 6 diapositivas de imágenes, que incluya botones de avance y retroceso. Las imágenes tienen un tamaño de 640x640 pixeles. El código debe ser responsive.

El resultado obtenido, lo mostramos en la siguiente presentación:

Boletín 4 - Noviembre 2024

Presentador generado por Qwen2.5-Coder (imágenes generadas por Pollinations con el modelo Flux).

Sorprende Qwen2.5-Coder-Artifacts pues, tal como lo hace Claude 3.5 Sonnet, presenta una ventana con la interfaz web.

Boletín 4 - Noviembre 2024

Hunyuan-Large

La empresa tecnológica multinacional china Tencent, presenta un modelo de MoE (Modelo de mezcla de expertos) de código abierto con 52 mil millones de parámetros. El modelo supera a LLaMA 3.1-70B y exhibe un rendimiento comparable con el modelo LLaMA 3.1-405B, significativamente más grande. Las prácticas clave de Hunyuan-Large incluyen datos sintéticos a gran escala que son órdenes más grandes que en la literatura anterior, una estrategia de enrutamiento de expertos mixtos, una técnica de compresión de caché de valor clave y una estrategia de tasa de aprendizaje específica para expertos. El código y los puntos de control de Hunyuan-Large se publican para facilitar futuras innovaciones y aplicaciones (Arxiv.

El modelo lo probamos en HuggingFace, con la pregunta: ¿Qué me puedes decir del fenómeno ovni?, a lo cual respondió:

El fenómeno OVNI, también conocido como objetos voladores no identificados, se refiere a avistamientos de objetos en el cielo que no pueden ser explicados por la ciencia convencional o tecnología conocida. Estos objetos han sido observados desde tiempos antiguos, pero la popularidad y el interés en los OVNIs aumentaron significativamente después de la Segunda Guerra Mundial, con el desarrollo de nuevas tecnologías y avances en la aviación.

Hicimos, además, las siguientes preguntas: Si 5 máquinas tardan 5 minutos en hacer 5 cacharros, ¿cuánto tardarían 100 máquinas en hacer 100 cacharros? y ¿Cuál número es más grande, 9.9 o 9.11? Respondiendo bien la primera pregunta, pero en la segunda dijo: El número 9.11 es más grande que 9.9.

Boletín 4 - Noviembre 2024

Pixtral Large 124B

Pixtral Large es el segundo modelo de la familia multimodal de Mistral, que presenta capacidades avanzadas de procesamiento y comprensión de imágenes junto con texto. Este modelo representa un avance significativo en la tecnología de inteligencia artificial, ya que combina grandes cantidades de datos con algoritmos sofisticados para interpretar contenido visual con una precisión sin precedentes (Sebastián Pedro).

La generación de imágenes de Le Chat compite directamente con DALL-E 3 de OpenAI, utilizando una asociación con Black Forest Labs para mejorar sus capacidades de procesamiento.

Imágenes generadas con Pixtral Large.

Boletín 4 - Noviembre 2024

GenType de Google Lab

GenType es una de estas herramientas, desarrollada en los laboratorios de Google Labs, que permite a los usuarios crear un abecedario adaptado a nuestras necesidades y estilos. Basándose en inteligencia artificial, esta herramienta de uso sencillo y de alta calidad puede ser útil para tu clase o incluso para algún proyecto en el que estés trabajando y para el que necesites darle un toque de creatividad (PANDORA).

Como ejercicio, generamos dos alfabetos, uno con piezas lego y otro con hormigas. Cos estos dos alfabetos y tres de la galería, obtuvimos:

La sigla IAGen escrita con nubes, margaritas, luciérnagas, lego y hormigas, usando la herramienta IA GenType.

Boletín 4 - Noviembre 2024

Usando las GPU de MimicPC

En nuestro boletín sólo presentamos novedades de IA generativas gratuitas (free) o con un plan gratis (freemium), pues nos permiten evaluarlas para emitir un juicio de valor; sin embargo, en algunos casos, se presentan herramientas o plataformas de pago que son bastante económicas y cuya suscripción es temporal (1 mes, por ejemplo), ese es el caso de MimicPC, que para este mes presenta una oferta "viernes negro" con un descuento del 60%.

Hemos hecho una suscripción de un mes pagando 5.90 dólares, con el fin de probar herramientas como ComfyUI, Fooocus, Auto1111, entre otras herramientas, que en local exigen una máquina de altas prestaciones.

La creación de contenido y arte con IA requiere recursos de GPU potentes, pero el hardware de GPU local sigue siendo prohibitivamente caro para muchos usuarios. Si bien las soluciones de GPU basadas en la nube ofrecen flexibilidad, sus costos aún pueden afectar los presupuestos de los proyectos y limitar el potencial creativo. MimicPC presenta su modelo de GPU basado en la nube a precio económico, que revoluciona la creación de IA con un rendimiento prémium a la mitad del coste estándar (MimicPC).

Con un costo inferior a 2 dólares, en nuestras primeras inmersiones en la plataforma, hemos generado 50 imágenes con modelos como Flux y Stable Diffusion 3.5, usando tarjetas gráficas como la A10G 24GB de VRAM | 16GB RAM a un costo de $0.99/h. En la siguiente página, presentamos algunas de las imágenes obtenidas.

Boletín 4 - Noviembre 2024

Imágenes generadas la plataforma MimicPC.

Otras aplicaciones en la plataforma son: RVC, Ollama, FaceFusion, Whisper, StoryDiffusion, Omnigen, InvkeAI, Restore and Upscale, Mochi, entre otros.

Boletín 4 - Noviembre 2024

Novedades en modelos de generación de imágenes y videos

En noviembre de 2024, los modelos de generación de imágenes y videos impulsados por inteligencia artificial han alcanzado un nuevo nivel de sofisticación. Este mes ha sido testigo de avances significativos en la calidad, versatilidad y eficiencia de estas herramientas, consolidando su papel en la creatividad digital y los entornos profesionales.

Entre las novedades destacan nuevas arquitecturas de modelos que permiten una generación más precisa de imágenes realistas y estilizadas, así como mejoras en la capacidad de crear videos con coherencia temporal y detalles excepcionales. Además, las plataformas están adoptando interfaces más intuitivas y funcionalidades que integran flujos de trabajo creativos de manera más fluida, desde la ideación hasta la producción final.

El enfoque de los desarrolladores en noviembre también incluye herramientas optimizadas para personalización, con ajustes basados en retroalimentación en tiempo real y modelos preentrenados especializados para áreas como diseño gráfico, marketing, educación y entretenimiento. En paralelo, se han introducido sistemas más accesibles y ligeros que democratizan la creación audiovisual mediante dispositivos de menor capacidad computacional, promoviendo su adopción en todo tipo de industrias.

Presentamos varias novedades que, seguramente, no cubren el amplio espectro de las IA generativas, en tanto que son muchas las que han realizado mejoras, actualizaciones o incorporación de nuevos modelos y herramientas.

Boletín 4 - Noviembre 2024

Mochi 1 es un modelo de IA de código abierto y de última generación para la generación de vídeos, capaz de crear vídeos de alta calidad a partir de indicaciones de texto, que se destaca por su movimiento de alta fidelidad y fuerte adherencia rápida. Se puede probar en Genmo.

Video generado con Genmo usando el modelo Mochi 1.

Con su enorme arquitectura de 10.000 millones de parámetros, Mochi 1 ofrece un movimiento suave y realista a 30 fotogramas por segundo. Es como tener un equipo de producción de video profesional al alcance de tu mano, listo para dar vida a tus ideas en segundos (Mochi 1).

Boletín 4 - Noviembre 2024

Lipsync presenta su versión beta 1.8.0: "Es el mejor hasta ahora, con diferencia. Muchos de ustedes nos pidieron que generáramos mejores dientes. Bueno, lo hicimos. El desafío es que nuestro viejo enfoque no nos permitía lograr esto. Entonces, volvimos a la mesa de dibujo y experimentamos con algunas técnicas más nuevas, que necesitaban más computación. 1.8.x marca el comienzo de una nueva clase de modelos por completo" (Lipsync).

He aquí un ejemplo:

Video generado con Hedra y sincronizado por Lipsync.

Boletín 4 - Noviembre 2024

SeaArt, además del modelo Flux, ha incluido el modelo Stable Diffusion 3.5, con el que hemos generado las siguientes imágenes (las dos últimas imágenes fueron generadas con el modelo SeaArt Infinity).

Imágenes generadas con SeaArt.

Boletín 4 - Noviembre 2024

Hoy anunciamos Recraft V3, nuestro último modelo que establece un nuevo estándar de calidad en el espacio de generación de imágenes, superando a todos los modelos de la competencia probados por el benchmark de texto a imagen, líder en la industria, de Hugging Face mediante análisis artificial.

Comparación con otros modelos de imágenes en la métrica clave de calidadELO de calidad: Puntuación ELO relativa de los modelos determinada por más de 100 000 respuestas de usuarios en Image Arena de Artificial Analysis. Es posible que algunos modelos no se muestren debido a que aún no cuentan con suficientes votos..

Racraft V3, según la comparación de "Artificial Analysis" (al 22 de noviembre de 2024), supera modelos como Flux 1.1, DALL-E3, Stable Diffusion 3.5 e Ideogram v2.

Las principales ventajas de Recraft V3 se encuentran en la calidad de generación de texto, precisión anatómica, pronta comprensión y alta calidad estética. Recraft V3 es el único modelo en el mundo que

Boletín 4 - Noviembre 2024

puede generar imágenes con textos largos, en lugar de solo una o un par de palabras (la primera imagen de la siguiente presentación, es un ejemplo de ello), una característica distintiva de Recraft es que admite la generación de imágenes vectoriales (Blog Racraft).

Imágenes generadas con Recraft V3 (incluye un mockup).

Boletín 4 - Noviembre 2024

Con 20 créditos gratis diarios, FreepikFreepik es una plataforma que ofrece una gran biblioteca de recursos gráficos para diseñadores, incluidas imágenes, ilustraciones, vectores, iconos y vídeos. También ofrecen un conjunto de herramientas de IA que permiten generar y editar imágenes utilizando algunos de los modelos de imagen más potentes del mercado actual. nos permite generar imágenes con el modelo Flux 1.1 Fast, con el cual obtuvimos las siguientes imágenes:

Imágenes generadas con Freepik.

Flux 1.1 Pro genera imágenes hasta seis veces más rápido que su predecesor, lo que permite un flujo de trabajo más fluido y eficiente, también mejora la calidad de la imagen, la adherencia rápida y la diversidad general en los resultados.

Boletín 4 - Noviembre 2024

PixVerse V3 ha sido lanzado, lleno de mejoras y nuevas herramientas que prometen mejorar tu experiencia de creación de videos. Ofrece un plan gratuito con 100 créditos iniciales y 30 adicionales diariamente.

Videos generados con PixVerse V3.

Boletín 4 - Noviembre 2024

Vivago AI la navaja suiza para la creación de contenido de video que no sabías que necesitabas (Cogni).

Vivago AI es una herramienta de inteligencia artificial con plan gratuito para generar imágenes y vídeos impresionantes. Ofrece funciones como ampliación de imagen hasta dos veces, borrado de elementos y ampliación hasta cuatro veces, animación de imágenes con la brocha mágica, generación 3D y cración de personajes.

Personaje creado con Vivago AI, a partir de un prompt..

No incluimos videos, pues en la versión gratuita es demasiado lenta su generación. Para las imágenes se ofrecen dos modelos: Polyart y Anime. Con la primera, hemos generado nueve imágenes, a partir del prompt: "Three people are watching a UFO in the sky, Disney style. A sign says, in Spanish, 'Encuentros cercanos de tercer tipo'", que hemos puesto en inglés; sin embargo, la herramienta acepata bien las indicaciones en español, si se tiene activo el "prompt mágico".

Boletín 4 - Noviembre 2024

Además de portarse bien en la inclusión de textos en la imagen, también admite una gran diversidad de estilos, tal como se aprecia en la siguiente presentación:

Imágenes generadas con Vivago AI en diferentes estilos.

Boletín 4 - Noviembre 2024

Finalmente, para no extendernos demasiado, presentamos otras novedades de imagen y video, con algunos resultados mostrados en la presentación de la siguiente página.

Cartario: Generador de imágenes con el modelo Flux 1.1. Permite generar sólo 5 imágenes.

Gamma: En el plan gratuito, eeste generador de presentaciones permite crear imágenes con los modelos Flux Fast, Playground 2.5 e Imagen 3 Fast de Google.

Perchance: Un excelente generador de imágenes, 100% gratuito a la fecha. Incluye más de 40 estilos y un tutorial, para usar prompts con variables.

Infinity: Un modelo de base de video que te permite crear tus personajes y luego darles vida.

Dream Machine: Esta herramienta de Luma labs, nos permite generar videos incluyendo dos imágenes (inicio y final), lo hemos hecho con dos imágenes de Vivago de la presentación anterior.

BlinkShot: Generador de imágenes en tiempo real, desarrollado por Together.ai. En el video final de la siguiente presentación, comparamos esta herramienta con otras similares como Krea, Leonardo, Decohere y SDXL Turbo.

Boletín 4 - Noviembre 2024

Contenidos digitales obtenidos de varias herramientas IA.

Boletín 4 - Noviembre 2024

Ya llegó Invideo AI V3.0

Invideo AI V3.0 aporta una verdadera generación de video de extremo a extremo a su conjunto de herramientas creativas.

A diferencia de otras herramientas de IA que solo generan clips, Invideo ofrece videos completos y listos para publicar a partir de indicaciones de texto simples (Future Tools).

El siguiente video fue generado con el prompt inicial de este boletín. La duración del video es de 4 minutos; sin embargo, en la versión gratuita, aparecen las marcas de agua y, además, las escenas (personajes, nave, alien) no son consistentes en los cambios de escena.

Video generado con Invideo V3.0.

Boletín 4 - Noviembre 2024

Novedades para docentes, estudiantes e investigadores

En noviembre de 2024, el panorama de las herramientas de inteligencia artificial para académicos se amplía con la llegada de tres innovaciones destacadas: PaperGen, iWeaverAI y ChatPaper. Estas plataformas prometen transformar la forma en que los investigadores, estudiantes y profesionales académicos abordan la generación y estructuración de contenido. Desde la creación de artículos científicos hasta la simplificación de procesos de análisis y redacción, estas nuevas herramientas ofrecen soluciones adaptadas a las necesidades específicas del ámbito académico, estableciendo un nuevo estándar en productividad y eficiencia.

PaperGen ¿Artículos con un solo clic?

PaperGen te ayuda a generar artículos extensos y bien estructurados con citas completas. Garantiza originalidad, claridad y precisión con detección de IA para una experiencia de escritura más parecida a la humana.

Al crear nuestra cuenta, obtuvimos 100 créditos. Con entusiasmo, generamos nuestro primer artículo para probar esta novedad en IA, pero todo fue un fiasco, por dos razones. La primera fue el agotamiento inmediato de los 100 créditos, dado que cada artículo generado costaba 100 créditos y, la segunda, la imposibilidad de acceder al artículo completo, pues mostraba solo una parte y al final el siguiente mensaje: "Upgrade plan to unlock access to entire paper".

Algo lamentable, pues nuestro propósito es evaluar la herramienta y recomendarla si dicha evaluación es positiva, tal como lo hemos

Boletín 4 - Noviembre 2024

hecho con excelentes herramientas, para investigadores, como Consensus o Elicit.

El artículo que solicitamos era sobre el Helicobacter pylori, el cual pudimos generar, sin obstáculos, con ChatGPT y con más calidad.

iWeaverAI, la herramienta de gestión de conocimiento

iWeaver es un asistente de gestión de conocimiento basado en IA diseñado para capturar, retener y recuperar conocimiento de manera eficiente. Funciona como una biblioteca personal impulsada por IA que clasifica y recupera información de manera inteligente según las necesidades del usuario (Monge).

Como lo dice Monge, se trata de un asistente similar a otras herramientas, que permiten "charlar con los documentos"; sin embargo, incluye funciones especiales como mapas mentales e imágenes resumen. El único pero es que sólo permite tres solicitudes diarias.

Boletín 4 - Noviembre 2024

ChatPaper, tu aliado 100% gratis

Quizá, has quedado inconforme con las dos novedades anteriores, en especial la primera; no obstante, recuerda que puedes recurrir a herramientas para investigadores muy populares, cuyo top 5 sonVéase el artíuclo "Las 10 principales herramientas de inteligencia artificial que todo investigador debería conocer en 2024 (Medium).: ChatGPT, Elicit, Consensus, ChatPDF y Research Rabbit.

En este mes, surge otra opción que, estamos convencidos, se posicionará en las listas de las mejores herramientas IA para investigadores. Se trata de ChatPaper, cuyas fortalezas se muestran en el siguiente video:

¡Sumérjase en las tendencias de investigación con ChatPaper!.

Boletín 4 - Noviembre 2024

Herramientas de Texto a Voz (TTS)

Destacamos este mes a TTSMaker, que es una herramienta en línea diseñada para convertir texto en audio utilizando tecnología de síntesis de voz (Text-to-Speech o TTS). TTSMaker permite generar audios de alta calidad con voces naturales y realistas en múltiples idiomas y estilos. ChatGPT recomienda TTSMaker por su accesibilidad gratuita y simple, mientras que para proyectos empresariales avanzados a Microsoft Azure TTS o Amazon Polly.

Herramienta	Características Destacadas	Idiomas y Voces	Casos de Uso Común	Costo
TTSMaker	Interfaz sencilla, voces realistas, opciones de personalización. Permite múltiples formatos de salida de audio.	Más de 50 idiomas, gran variedad de voces masculinas y femeninas.	Audiolibros, narraciones, aprendizaje de idiomas.	Gratuito, con opciones premium para características avanzadas.
Amazon Polly	Basado en IA de AWS, ofrece voces neurales y personalización avanzada, soporta Speech Synthesis Markup Language (SSML) para control detallado.	Más de 30 idiomas, múltiples acentos, incluyendo voces realistas en inglés.	Asistentes virtuales, aplicaciones móviles, aprendizaje automático.	Pago por uso (precios por carácter convertido).
Google Text-to-Speech	Integrado con Google Cloud, excelente calidad de voces neurales, admite una amplia personalización y sincronización con otras herramientas de Google.	Más de 40 idiomas, incluyendo dialectos locales.	Audiolibros, aplicaciones móviles, integración con dispositivos IoT.	Pago por uso, con una cantidad gratuita limitada mensualmente.
Microsoft Azure TTS	Ofrece voces naturales con síntesis neural, compatible con SSML. Se integra fácilmente con aplicaciones de Microsoft y otros servicios de Azure.	Más de 45 idiomas, múltiples estilos de narración (formal, amigable, etc.).	Presentaciones empresariales, contenido accesible, chatbots.	Pago por uso (precios basados en caracteres procesados).
NaturalReader	Enfocado en la accesibilidad, convierte texto a voz desde documentos, imágenes y páginas web. Interfaz fácil de usar y compatible con varios formatos.	Más de 20 idiomas, voces naturales con acentos personalizados.	Educación, narraciones personales, ayuda para personas con discapacidad visual.	Modelo freemium: versión gratuita con funciones limitadas y opciones premium desde $9.99/mes.

Boletín 4 - Noviembre 2024

Si quieres saber más de TTSMaker, Elvira, Cecilio, Camila o Tom te pueden dar más información (haz clic sobre uno de ellos).

Contenidos digitales obtenidos de varias herramientas IA.

Herramienta	Características Destacadas	Idiomas y Voces	Casos de Uso Común	Costo
TTSMaker	Interfaz sencilla, voces realistas, opciones de personalización. Permite múltiples formatos de salida de audio.	Más de 50 idiomas, gran variedad de voces masculinas y femeninas.	Audiolibros, narraciones, aprendizaje de idiomas.	Gratuito, con opciones premium para características avanzadas.
Amazon Polly	Basado en IA de AWS, ofrece voces neurales y personalización avanzada, soporta Speech Synthesis Markup Language (SSML) para control detallado.	Más de 30 idiomas, múltiples acentos, incluyendo voces realistas en inglés.	Asistentes virtuales, aplicaciones móviles, aprendizaje automático.	Pago por uso (precios por carácter convertido).
Google Text-to-Speech	Integrado con Google Cloud, excelente calidad de voces neurales, admite una amplia personalización y sincronización con otras herramientas de Google.	Más de 40 idiomas, incluyendo dialectos locales.	Audiolibros, aplicaciones móviles, integración con dispositivos IoT.	Pago por uso, con una cantidad gratuita limitada mensualmente.
Microsoft Azure TTS	Ofrece voces naturales con síntesis neural, compatible con SSML. Se integra fácilmente con aplicaciones de Microsoft y otros servicios de Azure.	Más de 45 idiomas, múltiples estilos de narración (formal, amigable, etc.).	Presentaciones empresariales, contenido accesible, chatbots.	Pago por uso (precios basados en caracteres procesados).
NaturalReader	Enfocado en la accesibilidad, convierte texto a voz desde documentos, imágenes y páginas web. Interfaz fácil de usar y compatible con varios formatos.	Más de 20 idiomas, voces naturales con acentos personalizados.	Educación, narraciones personales, ayuda para personas con discapacidad visual.	Modelo freemium: versión gratuita con funciones limitadas y opciones premium desde $9.99/mes.

Boletín 4 - Noviembre 2024

Suno AI lanza la versión 4

Suno AI lanza la versión 4: una nueva era en la generación de música con IASuno, la popular plataforma de generación de música con IA, ha lanzado oficialmente la versión 4 de su modelo el 19 de noviembre de 2024 para los usuarios, aportando mejoras significativas y nuevas funciones a su base de usuarios. Esta última actualización marca un avance sustancial en la calidad y las capacidades de la música generada con IA (Michael Phillips).

Algunas de las mejoras y nuevas funciones son;

Calidad de audio: Suno v4 ofrece un audio más limpio con un enfoque particular en la fidelidad vocal.
Canciones más nítidas: ofrece una mayor precisión en las letras y estructuras de canciones más dinámicas.
Remaster: función que permite a los usuarios actualizar pistas creadas con versiones anteriores de Suno a la calidad v4.
ReMi: un asistente de letras con tecnología de inteligencia artificial diseñado para ayudar a los usuarios a componer canciones. Esta herramienta tiene como objetivo ofrecer letras más creativas y de mayor calidad, mejorando el proceso general de composición de canciones.
Portadas mejoradas: genera diseños más distintivos que se adaptan mejor a estilos musicales específicos (Ibd.).

Usando el prompt inicial de este boletín, hemos generado una canción con Suno y el video con Noisee, tal como se aprecia en la siguiente página.

Boletín 4 - Noviembre 2024

PicLumen presenta el modelo Pony Diffusion V6 de PurpleSmartAI

El modelo Pony Diffusion V6, incorporado en PicLumen, presenta las siguientes características (@PicLumen):

Salida de alta calidad: ofrece imágenes sorprendentes e intrincadas, especialmente en estilos tipo anime.
Comprensión mejorada de las indicaciones: captura indicaciones detalladas con facilidad, lo que permite composiciones complejas y escenas con varios personajes.
Diseño dinámico de personajes: equipado con un vasto conocimiento de imágenes de anime y dibujos animados.
Integración perfecta: acceso a Pony Diffusion V6 tanto en la plataforma web como en la de iOS de PicLumen para disfrutar de una experiencia fluida y fácil de usar.

En la presentación de la siguiente página, puedes ver 11 imágenes generadas con PicLumen. Para ña primera imagen, usamos el prompt mejoradoPicLumen presenta una opcion para mejorar el prompt, incluso si lo ingresamos en español, el cual después de mejorado se traduce al inglés.: "A whimsical digital watercolor portrait of a stunning woman with long, flowing white hair, donning a pair of vibrant pink sunglasses and a festive Santa hat, as she playfully blows a large pink bubble of gum amidst a merry Christmas backdrop of soft pink, rich red, and crisp white, evoking a sense of joy and holiday magic.

Boletín 4 - Noviembre 2024

Coca-Cola lanza sus anuncios navideños 2024: entre la innovación y la contro- versia

En noviembre de 2024, Coca-Cola presentó su campaña navideña, marcando un cambio significativo en su estrategia creativa al usar inteligencia artificial (IA) para producir tres anuncios distintos. Aunque la marca mantiene su característico espíritu navideño, los anuncios han generado opiniones divididas entre los espectadores.

Fracción del video "Coca-Cola - Unexpected Santa (AI-Generated Christmas Ad 2024)", publicado por LLLLITL en YouTube.

Aspectos positivos: Los anuncios han sido elogiados por su creatividad y capacidad para explorar nuevos formatos narrativos gracias a la IA. Se destacaron detalles visuales impresionantes, como la recreación de paisajes navideños mágicos y mensajes que apelan

Boletín 4 - Noviembre 2024

a la unión y la esperanza, valores centrales de la marca durante esta temporada.

Críticas negativas: Algunos consideran que la IA le resta autenticidad a los anuncios, percibiéndolos como fríos y desconectados de la esencia emocional que solían transmitir sus campañas más tradicionales. Además, ciertos analistas han cuestionado el uso de tecnología generativa, argumentando que podría diluir el impacto emocional que caracteriza a la publicidad navideña de Coca-Cola.

La campaña de 2024 refleja un momento de transición para la marca, buscando adaptarse a nuevas tendencias mientras mantiene su relevancia emocional con el público (Noticia por ChatGPT4-o).

Las siguientes imágenes y videos, fueron generadas con el prompt: "An image of three red trucks with signage “Coca-Cola” driving on a snowy highway. There are lots of Christmas lights on the highway and there are also lights around the truck"

Boletín 4 - Noviembre 2024

Como se aprecia en las imágenes anteriores, no es fácil obtener las imágenes mostradas en los videos navideños promocionados por Coca-Cola, lo que evidencia un gran esfuerzo creativo, tanto humano como de IA para lograrlo.

Pero, ¿por qué no hay críticas negativas en videos virales lanzados por desconocidos? Por ejemplo, el siguiente video, pese a la baja calidad, tiene más de 250 000 me gusta en Facebook en el mes de noviembre.

Publicado por Justine Moore en X.

Boletín 4 - Noviembre 2024

A diferencia en la recepción de contenidos digitales generados por IA para grandes empresas como Coca-Cola versus individuos no conocidos puede explicarse por una combinación de expectativas, contexto y percepciones socioculturales. Marcas como Coca-Cola tienen una reputación consolidada y recursos vastos, lo que genera altas expectativas en términos de creatividad, originalidad y calidad. Individuos desconocidos, por el contrario, las expectativas son mucho menores. Si logran algo innovador o entretenido, incluso con herramientas simples o baja calidad, se percibe como un logro destacable y auténtico.

Las grandes corporaciones están sujetas a un mayor escrutinio. Un contenido cuestionable generado por IA puede interpretarse como una falta de ética, sensibilidad o incluso como un intento de reducir costos a expensas de la calidad. El uso de IA en lugar de talento humano puede ser visto como una estrategia para reducir costos laborales, lo que genera críticas sobre la ética empresarial.

Boletín 4 - Noviembre 2024

El primer ingeniero fullstack de IA del mundo

Se llama Lovable, el "primer ingeniero fullstack de IA del mundo"Un ingeniero Full Stack es un profesional de desarrollo de software que tiene habilidades y conocimientos para trabajar tanto en el frontend como en el backend de una aplicación.. Acaba de alcanzar el puesto número 1 en Product Hunt y las reseñas de los usuarios son fantásticas. No el educado "¡Felicitaciones por tu lanzamiento!", sino el tipo de reseñas que dicen "arreglé la fecha límite del proyecto de mi amigo en 5 minutos" y "mejor que lo que construí en Bubble en un día" (The Neuron).

Usamos esta nueva herramienta, que compite con importantes asistentes de codificación como v0 de Vercel, Replit, Bolt.new y Cursor, para generar dos aplicaciones.

Presentador de diapositivas

Ingresamos la siguiente solicitud: "Crea en HTML5 (CSS+HTML+JS) un presentador de 15 diapositivas de imágenes de animales, con impactantes transiciones de una diapositiva a otra. Las imágenes las tomas de pollinations.ai", obteniendo la app que se muestra en la siguiente página, la cual incluye: control deslizante moderno de pantalla completa con interfaz de usuario mínima, transiciones de escala y desvanecimiento suaves, controles de navegación semitransparentes y barra de progreso en la parte inferior.

Con Lovable podemos publicar y obtener el enlace de la app obtenida y, además, podemos publicarlo en un repositorio de GitHub que, para este primer ejemplo, se encuentra en animal-slide-showcase.

Boletín 4 - Noviembre 2024

Presentador de diapositivas generado con Lovable.

Boletín 4 - Noviembre 2024

Página web sobre el fenómeno ovni

Para este segundo ejercicio, hicimos la siguinte solicitud: "Crea una página web sobre el fenómeno ovni, incluyendo imágenes de pollinations.ai, a lo cual Lovable respondió:

¡Vamos a crear una página fascinante sobre el fenómeno OVNI! Me inspiraré en diseños modernos de sitios web sobre fenómenos paranormales y espaciales, como el sitio de SpaceX y documentales de History Channel, pero con un toque más misterioso.

Para esta primera versión, implementaré:

Una página principal con un diseño inmersivo y moderno
Una sección de hero con una imagen generada por IA impactante
Una sección de información sobre avistamientos famosos
Una galería de imágenes generadas por IA de OVNIs
Efectos de desplazamiento suave y animaciones sutiles

Paleta de colores y estilo:

Fondo oscuro (#1A1F2C) para dar sensación de misterio
Acentos en tonos neón azulados (#0EA5E9) y violetas (#8B5CF6)
Tipografía futurista para títulos
Efectos de brillo y resplandor para elementos destacados
Gradientes sutiles para dar profundidad

El resultado se aprecia en la siguiente página y el código lo puedes descargar de GitHub.

¡Eso es todo!
Para este mes

Boletín 4 - Noviembre 2024

Página web generadacon Lovable.

Boletín 4 - Noviembre 2024