Diciembre - 2024
Número 5

Red Educativa Digital Descartes
Córdoba (España)
descartes@proyectodescartes.org
https://proyectodescartes.org

Revista Digital Red Descartes
https://proyectodescartes.org/revista/index.html

Esta obra está bajo una licencia Creative Commons 4.0 internacional: Reconocimiento-No Comercial-Compartir Igual.

CONTENIDO

04	La carrera por la inteligencia artificial: Gemini 2.0, Llama 3.3, Grok y otros gigantes se enfrentan en diciembre

14	Creando Villancicos con Mureka

15	Los modelos abiertos de Ai2

18	Creando un Chatbot con Mistral Large

20	Los cuadernos de Elicit se pueden compartir

22	Amazon Nova: Una nueva generación de modelos base

24	Math-GPT y otros chatbots de matemáticas

26	Video Podcast a partir de un PDF con HeyGen

CONTENIDO

28	Artículo: "Acurai afirma la eliminación del 100% de las alucinaciones"

31	Novedades en modelos de generación de imágenes y videos

46	Música para celebrar las festividades navideñas con Tem Polor y Suno

48	Los 12 días de Shipmas de OpenAI

55	Conversando, en tiempo real, con ChatGPT y Gemini

57	Podcast interactivo en NotebookLM

58	Google Learn About, un motor de búsqueda con listas interactivas

59	Novedades de WebSim

Introducción

¡Ho, ho, ho! Bienvenidos al boletín de Novedades de IA Generativas, edición especial de diciembre, donde la magia de la Navidad se fusiona con el poder de la inteligencia artificial. Diciembre llega con su inconfundible espíritu festivo, y en esta ocasión, nos sumergimos en la magia de la Navidad a través del fascinante mundo de las IA generativas.

Este mes, dejaremos de lado los algoritmos cotidianos para sumergirnos en un festivo país de las maravillas digitales, donde la IA generativa se viste de gala navideña. Desde la creación de villancicos personalizados hasta la generación de videos navideños, veremos cómo estas herramientas están listas para aportar un toque tecnológico a las fiestas.

En esta edición especial, queremos celebrar la creatividad, la innovación y la alegría de la temporada, mostrando cómo la IA generativa puede ser una herramienta más en nuestro arsenal para vivir una Navidad memorable. ¡Así que, sírvanse una taza de chocolate caliente, enciendan las luces del árbol y acompáñennos en este festivo recorrido!

La Navidad siempre ha sido un momento de magia, conexión y sorpresa. Con la IA generativa, esa magia se amplifica, nos ofrece nuevas formas de experimentar la tradición y nos recuerda que la creatividad no conoce límites, ni siquiera los impuestos por la tecnología.

Acompáñanos en este viaje lleno de innovación, creatividad y calidez navideña. ¡Prepárate para sorprenderte con lo que la IA puede ofrecer en estas fiestas! 🎄✨

Boletín 5
Diciembre
2024

La carrera por la inteligencia artificial: Gemini 2.0, Llama 3.3, Grok y otros gigantes se enfrentan en diciembre

El panorama de la inteligencia artificial nunca había sido tan dinámico y competitivo como en diciembre de 2024. Grandes modelos de lenguaje, cada vez más avanzados, se disputan la vanguardia tecnológica en una carrera que abarca desde capacidades mejoradas en procesamiento de lenguaje natural hasta integraciones más sofisticadas con herramientas del mundo real.

Este mes, la llegada de Gemini 2.0, Llama 3.3 y las apertura de Grok marca un punto álgido en la evolución de los modelos de lenguaje, mientras gigantes consolidados como ChatGPT, Claude, y el prometedor Mistral renuevan sus estrategias para mantenerse relevantes.

En este artículo exploramos las características distintivas de estas tecnologías, los avances que prometen revolucionar su uso en educación, investigación, y negocios, así como los desafíos que cada competidor enfrenta en un mercado que no solo busca innovación, sino también eficiencia, seguridad y ética.

¿Qué modelo se posicionará como líder en esta frenética carrera? Analizamos su impacto y sus implicaciones para el futuro de la IA.

Imagen derecha generada con Ideogram 2.0

Boletín 5
Diciembre
2024

¿Qué modelo se posicionará como líder en esta frenética carrera?

Boletín 5
Diciembre
2024

Quisimos iniciar este apartado, creando una aplicación generadora de texto navideño, usando WebSim y el modelo Gemini 2.0 Flash, tarea que no logramos, pues WebSim se empecinó en poner un fondo al texto. Recurrimos, entonces, a WildWest con el modelo Claude 3.5 Sonnet, obteniendo la aplicación, tal como la queríamos, con la que diseñamos el título de esta página.

El modelo Gemini 2.0 Flash es lanzado por Google el 11 de diciembre, a través del post "Presentamos Gemini 2.0", que NotebookLM, nos resume así:

Este artículo presenta a Gemini 2.0, el nuevo modelo de IA de Google diseñado para la "era de los agentes". Gemini 2.0 es más capaz que las versiones anteriores, con salida nativa de imagen y audio y uso de herramientas. Gemini 2.0 Flash está disponible para desarrolladores y probadores de confianza, y se planea una disponibilidad más amplia para principios del próximo año. Google está explorando experiencias de agentes con Gemini 2.0, incluidos Proyecto Astra, Proyecto Mariner y Jules. Google se compromete a construir IA de manera responsable, con la seguridad y la protección como prioridades clave.

Google está invirtiendo en el desarrollo de modelos más agentes que puedan entender más sobre el mundo que te rodea, pensar varios pasos por delante y actuar en tu nombre, con tu supervisión. El objetivo es crear nuevos agentes de IA que nos acerquen a la visión de un asistente universal.

Gemini 2.0 Flash se basa en el éxito de 1.5 Flash, el modelo más popular para desarrolladores, con un rendimiento mejorado en tiempos de respuesta igualmente rápidos.

Boletín 5
Diciembre
2024

Gemini 2.0 Flash incluso supera a 1.5 Pro en puntos de referencia clave, al doble de velocidad. 2.0 Flash también viene con nuevas capacidades. Además de admitir entradas multimodales como imágenes, vídeo y audio, 2.0 Flash ahora admite salidas multimodales como imágenes generadas de forma nativa mezcladas con texto y audio multilingüe de texto a voz (TTS) dirigible. También puede llamar de forma nativa a herramientas como la Búsqueda de Google, la ejecución de código, así como funciones definidas por el usuario de terceros.

En general, Gemini 2.0 representa un paso significativo hacia la construcción de agentes de IA más capaces y útiles.

Por su caracter multimodal, le pedimos que describiera la imagen de nuestra portada, a lo que respondió:

La imagen muestra un primer plano del perfil de Papá Noel. Tiene un gorro rojo con un borde blanco de peluche y una barba blanca y espesa. En su mejilla se pueden ver las palabras "Novedades" y "IAGen" escritas en negro, como un tatuaje temporal. La piel del rostro muestra arrugas finas, especialmente alrededor del ojo. Tiene un ojo azul que mira hacia el lado y una nariz rojiza. El enfoque está en el rostro, con un fondo borroso. El efecto general es que es una imagen de alta calidad y está muy bien detallada.

Boletín 5
Diciembre
2024

En el mes de diciembre, el chatbot Grok de X está disponible sin suscripción premium, incluso la nueva versión Grok 2 pero, "Al igual que otros chatbots como ChatGPT y Claude, los usuarios gratuitos de Grok tendrán restricciones sobre la cantidad de veces que pueden usar la herramienta en un día (Will McCurdy).

La noticia llega en un momento en que xAI, la start-up que desarrolla Grok, tiene grandes planes. Recientemente consiguió otros 6.000 millones de dólares en financiación, según recientes presentaciones ante la SEC , y The Wall Street Journal informó el mes pasado que xAI planea lanzar eventualmente una aplicación de consumo independiente para competir con ChatGPT de OpenAI y Claude de Anthropic. Mientras tanto, la supercomputadora Memphis que impulsa Grok está considerando una enorme expansión de 200.000 a 1 millón de GPU (Ibid.).

Como ejercicio, le pedimos, también, la descripción de la imagen de portada, obteniendo:

La imagen muestra a una persona disfrazada de Santa Claus, con un gorro rojo y blanco, y una barba larga y blanca. En la parte derecha de la imagen, se puede ver que tiene tatuajes en el rostro con las palabras "Novedades" y "IAgen". La iluminación sugiere que es una foto tomada en un ambiente oscuro, resaltando los detalles del disfraz.

Si comparamos esta descripción con la dada por Gemini 2.0 Flash, podemos concluir que Grok se quedó corto en la descripción.

Boletín 5
Diciembre
2024

Llama 3.3 es un gran modelo de lenguaje multilingüe previamente entrenado con 70 000 millones de parámetros lanzado por Meta AI. El modelo es comparable en rendimiento al Llama 3.1 con 405 000 millones de parámetros y está optimizado para conversaciones multilingües, y admite inglés, alemán, francés, italiano, portugués, hindi, español y tailandés.

Llama 3.3 tiene una ventana de contexto más larga, capacidades de entrada y salida en varios idiomas y la capacidad de integrarse con herramientas de terceros para ampliar su funcionalidad, lo que lo hace adecuado para fines comerciales y de investigación (Gao Dalie).

Llama 3.3 lo pudimos probar en Hugging Face y en Lamda Chat, en este último le pedimos un prompt para dibujar el pesebre de Belén con una descripción detallada, obteniendo:

El entorno
El pesebre de Belén se encuentra en un establo humilde, ubicado en el pueblo de Belén, en la región de Judea. El establo está rodeado de colinas y montañas, con un cielo nocturno estrellado.

El establo
El establo es una estructura simple, con paredes de piedra y un techo de paja. La puerta es estrecha y está hecha de madera. En el interior, el establo está iluminado por una luz suave y cálida, que proviene de una lámpara de aceite que cuelga del techo.

Boletín 5
Diciembre
2024

La Sagrada Familia
En el centro del establo, se encuentra la Sagrada Familia: María, José y el Niño Jesús. María está sentada en un banco de piedra, con el Niño Jesús en su regazo. José está de pie a su lado, con una expresión de amor y devoción.

El Niño Jesús
El Niño Jesús está acostado en un pesebre de madera, forrado con paja y una manta blanca. Su rostro es sereno y pacífico, con una sonrisa suave en sus labios.

Los animales
Alrededor del pesebre, se encuentran varios animales, que han venido a adorar al Niño Jesús. Un buey y un asno están de pie a cada lado del pesebre, con sus cabezas inclinadas en señal de respeto. Un cordero y un cabrito están sentados a los pies de María, mirando al Niño Jesús con curiosidad.

Los ángeles
En el techo del establo, se encuentran varios ángeles, que han venido a anunciar el nacimiento del Niño Jesús. Están vestidos con ropas blancas y tienen alas brillantes. Cantan y tocan instrumentos musicales, llenando el establo con una música celestial.

La estrella de Belén
En el cielo nocturno, se encuentra la estrella de Belén, que brilla con una luz intensa y guiadora. La estrella ilumina el camino a los magos y a los pastores, que vienen a adorar al Niño Jesús.

Con esta descripción, intentamos generar la imagen en Meta AI, la cual usa Llama 3.3 70B; sin embargo, nos respondió: "No puedo generar esa imagen. ¿Te ayudo a

Boletín 5
Diciembre
2024

imaginar otra cosa?". Recurrimos, entonces, a otras herramientas generadoras de imagen, como Leonardo con el nuevo modelo flux dev, Gemini con Imagen 3, Ideogram 2.0, entre otras, pero su adherencia al prompt fue bastante pobre, la que más se acercó fue ChatGPT:

Imagen generada por ChatGPT con tecnología DALL-E y mejorada con Krea. El prompt generado por Llama 3.3.

Detalles como el asno, la puerta estrecha, el niño Jesús en el regazo de María y las alas brillantes de los ángeles están ausentes en la imagen.

Boletín 5
Diciembre
2024

El modelo de inteligencia artificial QwQ-32B-preview se establece como un competidor serio en el campo de la IA. Desarrollado por el equipo Qwen de Alibaba, no se limita a imitar; reinventa la forma en que los sistemas de inteligencia artificial abordan problemas complejos. Con sus 32,5 mil millones de parámetros, se posiciona como una herramienta clave en el sector tecnológico. En los benchmarks AIME y MATH, este modelo ha demostrado una capacidad significativa para resolver problemas lógicos y matemáticos. Su capacidad para procesar prompts de hasta 32 000 palabras lo convierte en un recurso considerable tanto para desarrolladores como para investigadores (Hugo Mollet).

Le pedimos un prompt para dibujar el pesebre de Belén, obteniendo una indicación más sencilla que la dada por Llama 3.3:

Dibuja un pesebre de Belén tradicional en un pueblo navideño. Incluye a la Virgen María sosteniendo al bebé Jesús, José a un lado, y los pastores acercándose con expresiones de asombro. Añade también animales como bueyes y asnos alrededor del pesebre. El escenario debe ser nocturno, con una luz suave proveniente de una estrella brillante en el cielo. El fondo puede mostrar una pequeña ciudad o campiña tranquila. El estilo debe ser realista y con mucha atención al detalle.

Generamos varias imágenes con diferentes herramientas de IA. La mayoría presentaron dificultades para adherirse al prompt, mostrando un niño Jesús deformado o muy crecido y, en varias imágenes, dos niños.

Boletín 5
Diciembre
2024

En todas, la calidad de la imagen es pobre. En la siguiente presentación, podemos ver algunos resultados obtenidos.

Boletín 5
Diciembre
2024

Creando Villancicos con Mureka

En el cambiante mundo de la producción musical, la inteligencia artificial ha surgido como una fuerza que cambia las reglas del juego. Aquí es donde entra en escena Mureka AI, una poderosa herramienta que está revolucionando la forma en que creamos y monetizamos la música. Esta innovadora plataforma combina tecnología de inteligencia artificial de vanguardia con funciones fáciles de usar, lo que permite que tanto los profesionales experimentados como los artistas en ciernes produzcan pistas originales de alta calidad en minutos (Zeng).

En su versión libre, permite generar 6 canciones diarias. Con el prompt "época de navidad", nos generó dos canciones en estilo Pop, que parte de ellas puedes escuchar haciendo clic en las siguientes imágenes:

Boletín 5
Diciembre
2024

Modelos abiertos

Pablo Allen, filántropo y cofundador de Microsoft, fundó Ai2 en 2014.

Ai2 es un instituto de investigación de IA sin fines de lucro con sede en Seattle, fundado en 2014 por Paul Allen. Desarrolla inves- tigación e innovación en IA fundamentales para generar un impacto en el mundo real a través de modelos abiertos a gran escala, datos, robótica, conservación y más (allenai.org).

Nuestro trabajo en IA multimodal ha sido pionero desde el principio, y seguimos ampliando los límites de lo que pueden hacer estos modelos. El potencial de los modelos multimodales para una mayor precisión y un contexto más completo hace que esta sea una frontera emocionante y en rápida evolución para la IA (Ai2).

La colección de modelos abiertos de Ai2 incluyen LLM, modelos multimodales y marcos de evaluación. En este apartado, exploramos los dos primeros.

Modelos lingüísticos

Estos modelos se pueden consultar en allenai.org/open-models; entre ellos, la familia Tülu 3, que puedes probar a continuación.

Boletín 5
Diciembre
2024

El modelo OLMo 2, totalmente abierto hasta la fecha, incluye una familia de modelos 7B y 13B, que supera a otros modelos como Llama 3.1 8B.

Boletín 5
Diciembre
2024

Modelos multimodales

Molmo es una familia de modelos de IA multimodales abiertos y de última generación. El modelo más potente cierra la brecha entre los sistemas abiertos y los propietarios en una amplia gama de puntos de referencia académicos. Le pedimos a este modelo que describiera la imagen de la portada, obteniendo:

La imagen muestra una cara de Santa Claus en un perfil cercano. Papá Noel luciendo su icónico sombrero rojo con un pompón blanco. Su rostro se caracteriza por una barba y un bigote largos y blancos, y tiene cejas blancas y tupidas.

La expresión de Papá Noel es seria, con la cabeza ligeramente inclinada y la mirada dirigida hacia un lado. Lo que es particularmente interesante es el tatuaje visible en su mejilla, que dice "Novedades Iagen" en tinta negra. Este tatuaje añade un inesperado toque moderno a la imagen tradicional de Papá Noel. El fondo está borroso, llamando toda la atención sobre el rostro de Papá Noel y sus rasgos distintivos. La paleta de colores general incluye rojo, blanco, negro y toques de gris y azul.

Este retrato en primer plano presenta una mezcla única de la clásica imagen de Papá Noel con un toque contemporáneo, como lo demuestra el tatuaje. Es una representación intrigante y poco convencional de la querida figura navideña.

Recomendamos explorar el modelo Unificado-IO-2, el primer modelo multimodal autorregresivo capaz de comprender y generar imágenes, texto y audio.

Boletín 5
Diciembre
2024

Creando un Chatbot con Mistral Large

Mistral AI, la empresa francesa de inteligencia artificial fundada por ex-empleados de Google y Meta, ha mejorado su plataforma de IA multimodal gratuita y se acerca a igualar, e incluso a superar en ocasiones, las ofertas de pago de OpenAI o Anthropic (Jose Antonio Lanz).

Chatbots personalizados

El enfoque democrático de Le Chat para agentes de IA representa un cambio significativo en accesibilidad. Los usuarios pueden crear, personalizar e implementar agentes especializados (Ibid.). Hemos creado un chatbot, con los siguientes pasos:

Ingreso a la consola de Mistral AI, a traves del siguiente enlace: console.mistral.ai.
Seleccionamos la opción "Crear un agente" (para usar modelos, instrucciones y demostraciones y crear un agente personalizado para implementarlo en le Chat).
Llenamos los datos de nuestro agente: título, descripción e instrucciones.
Seleccionamos el modelo y hacemos clic en desplegar (deploy).
Por defecto, se activa el despliegue con la API (con costo); sin embargo, podemos activar el despliegue Le Chat (gratis), obteniendo un enlace que podemos compartir.

Boletín 5
Diciembre
2024

Como ejercicio, creamos un chatbot sobre la cuarta revolución industrial, que puedes usar en este enlace: 4RI.

Generación de imágenes

Le Chat se ha aliado con Flux Pro. Usamos el prompt obtenido con QWQ 32B:

Imagen generada en Le Chat con el modelo Flux Pro

La descripción de la imagen de la portada:

La imagen muestra un primer plano de un hombre que parece ser Papá Noel, caracterizado por su barba blanca y su gorro rojo con borde blanco. En su mejilla izquierda, tiene escrito "Novedades IAGen". La expresión del rostro es seria y pensativa, con una mirada que parece estar dirigida hacia algo en la distancia. El fondo está desenfocado, lo que pone el enfoque principal en el rostro del personaje. La iluminación es suave, destacando los detalles de la piel y la barba.

Boletín 5
Diciembre
2024

Los cuadernos de Elicit se pueden compartir

Elicit, desarrollado por Ought, es una herramienta de inteligencia artificial para encontrar "artículos semilla" y extraer palabras clave o títulos temáticos, es una innovadora herramienta impulsada por IA diseñada para revolucionar la forma en que los investigadores manejan su trabajo, mejorando la eficiencia y la precisión en la investigación académica. Esta plataforma avanzada automatiza varias tareas de investigación, incluyendo resumir artículos académicos, extraer puntos de datos clave y sintetizar los hallazgos de la investigación en temas coherentes (10Web).

Elicit permite a los usuarios buscar sin esfuerzo en una extensa base de datos de 125 millones de artículos académicos, proporcionando resúmenes rápidos de una oración y extracciones detalladas en tablas organizadas.

Carga de archivos PDF a la biblioteca de Elicit.

También podemos cargar archivos PDF directamente a la

Boletín 5
Diciembre
2024

plataforma, recibir resúmenes instantáneos e interactuar con el contenido haciendo preguntas específicas, lo que facilita profundizar en los temas sin tener que pasar horas leyendo documentos completos.

La nodedad de este mes, es la posibilidad de compartir nuestros cuadernos, tal como lo hacemos a continuación:

Haz clic en el botón de la esquina superior derecha, para abrir el cuaderno en pantalla completa.

Tambien, puedes acceder al cuaderno haceindo clic en el enlace compartido es Novedades en IA Generativa 2024 y, si lo deseas, activar la traducción a español.

Boletín 5
Diciembre
2024

Amazon Nova: Una nueva
generación de modelos base

Amazon Nova es una nueva generación de modelos base (FM) de última generación que ofrecen inteligencia de vanguardia y un rendimiento de precios líder en la industria.

A dos de los tres modelos, por ser multimodales, les pedimos la descripción de la imagen de portada de este boletín.

Nova Lite 1.0

Amazon Nova Lite 1.0 es un modelo multimodal de muy bajo costo de Amazon que se centra en el procesamiento rápido de imágenes, videos y textos para generar textos. Amazon Nova Lite puede gestionar interacciones con clientes en tiempo real, análisis de documentos y tareas de respuesta visual a preguntas con gran precisión. Con un contexto de entrada de 300K tokens, puede analizar múltiples imágenes o hasta 30 minutos de video en una sola entrada.

La imagen muestra a un anciano con barba que lleva un disfraz de Papá Noel. Hay palabras "Novedades Iagen" escritas en las mejillas del hombre junto a su boca. Los ojos del hombre se ven un poco borrosos y parece tener algunas arrugas, lunares y líneas finas en las mejillas y alrededor de la boca. Podría estar posando para una foto. Su cabeza lleva un gorro de Papá Noel con una bola blanca en el extremo.

Boletín 5
Diciembre
2024

Nova Micro 1.0

Amazon Nova Micro 1.0 es un modelo de solo texto que ofrece las respuestas con menor latencia de la familia de modelos Amazon Nova a un costo muy bajo. Con una longitud de contexto de 128 000 tokens y optimizado para la velocidad y el costo, Amazon Nova Micro se destaca en tareas como resumen de texto, traducción, clasificación de contenido, chat interactivo y lluvia de ideas. Tiene capacidades de codificación y razonamiento matemático simples.

Nova Pro 1.0

Amazon Nova Pro 1.0 es un modelo multimodal de Amazon que se centra en ofrecer una combinación de precisión, velocidad y costo para una amplia gama de tareas. A partir de diciembre de 2024, alcanza un rendimiento de vanguardia en parámetros clave, como la respuesta visual a preguntas (TextVQA) y la comprensión de videos (VATEX). Amazon Nova Pro demuestra fuertes capacidades en el procesamiento de información visual y textual y en el análisis de documentos financieros.

En la imagen, hay un hombre que podría ser que represente a "Santa Claus" de aspecto anciano, con barba y bigote. Su rostro está inclinado a un lado, y se puede apreciar un gorro característico, que le cubre el cabello, con sus orejas asomando. Sobre la parte derecha de su rostro, tiene un texto que podría ser un tatuaje, o estar escrito con algún líquido de textura cremosa que le permita adherirse a la piel, el cual parece estar en español. La fotografía está enfocada solo en la cara.

Boletín 5
Diciembre
2024

Math-GPT y otros chatbots de matemáticas

Math-GPT es un solucionador de matemáticas con inteligencia artificial y un ayudante de tareas en el que confían más de 2 millones de estudiantes que resuelven preguntas de álgebra, geometría, cálculo y estadística con solo una foto.

La novedad de esta herramienta, es la posibilidad de generar videos explicativos, tal como lo mostramos a continuación:

La propiedad intelectual de los videos generados es de Math-GPT, suministrando solo el enlace al video e impidiendo su descarga. He aquí un ejemplo: Tercera ley de Newton.

Boletín 5
Diciembre
2024

Math-GPT, en la versión libre, solo permite 3 o 4 mensajes diarios.

Otras opciones, que no incluyen generación de videos, son las siguientes: MathGPT Pro, Math GPT Solver, Math AI y YesChat.

Boletín 5
Diciembre
2024

Video Podcast a partir de un PDF con HeyGen

Fundada por Joshua Xu y Wayne Liang en noviembre de 2020 en Los Ángeles, HeyGen (originalmente “Movio”) es una herramienta de video en línea que te ofrece avatares de Inteligencia Artificial (IA) parlantes integrados y con una sincronización labial perfecta, para conducir tus videos. HeyGen ofrece varios tipos de licencias, y la gratuita permite lo siguiente: creación de un video con duración máxima de 1 minuto, un avatar instantáneo, más de 120 avatares públicos, más de 300 voces, clon de voz como complemento adicional con costo (Perla Téllez).

El 17 de diciembre, HeyGen anunció en X:

✨¡El futuro de los podcasts de video ya está aquí! 🎥

Convierte cualquier PDF o URL en un podcast de video en minutos. Desde documentos de capacitación hasta artículos de noticias, crea contenido atractivo, ¡todo con un clic! (@HeyGen_Oficial)

Probamos la nueva herramienta, subiendo el PDF del boletín "Novedades IAGen" de noviembre; luego, seleccionamos dos avatares y generamos el primer video podcast. Como nos lo generó en inglés, recurrimos a Vizard AI, para que nos pusiera los subtítulo en español, algo innecesario, pues HeyGen tiene la herramienta de traducción. Finalmente, obtuvimos este video podcast, en el que sorprende la sincronización de labios, además de capturar los elementos clave del documento.

En la siguiente página, presentamos un video generado con HeyGen, para promocionar el boletín de diciembre.

Boletín 5
Diciembre
2024

Artículo: "Acurai afirma la eliminación del 100% de las alucinaciones"

El 6 de diciembre, Wood y Forbes publican el artículo "100% Hallucination Elimination Using Acurai" (ver artículo en la siguiente página). El 9 de diciembre, Manpreet Singh publica el artículo "Acurai: Claiming 100% Hallucination Elimination". Dado del posible impacto en los LLM, recurrimos a Notebook, para que nos diera los aspectos más relevantes de estos artículos:

Acurai es un nuevo enfoque sistemático que logra un 100% de respuestas libres de alucinaciones en los LLM. Este método se basa en el cambio del formato de las consultas y los datos de contexto antes de ser enviados al LLM. Acurai aborda el problema de las alucinaciones, que son respuestas incorrectas o sin sentido generadas por los LLM. A pesar de los avances en los sistemas de generación aumentada por recuperación (RAG), los métodos actuales no logran una precisión superior al 80% en la generación de resultados fiables y correctos, incluso con un contexto preciso.

Las alucinaciones en los sistemas RAG siguen siendo un problema debido a la dificultad de identificar la información precisa necesaria para responder con exactitud y rapidez. Los sistemas RAG tradicionales envían grandes cantidades de texto al modelo, lo que puede abrumarlo con información irrelevante.

Acurai se basa en la comprensión de las representaciones internas de los LLM, la importancia del dominio de los sintagmas nominales y el papel de las unidades funcionales discretas (DFU).

Boletín 5
Diciembre
2024

El Modelo de Dominio de Sintagmas Nominales de Acurai postula que todas las alucinaciones se producen cuando el LLM confunde dos sintagmas nominales distintos, especialmente cuando son semánticamente similares.

Para eliminar las alucinaciones, Acurai divide las consultas para separar las colisiones de sintagmas nominales, garantizando que el LLM no reciba sintagmas nominales semánticamente similares que se refieran a cosas distintas. Acurai también transforma los pasajes en "Hechos Totalmente Formateados" (FFF), que son enunciados simples, autónomos y sin colisiones de sintagmas nominales. Estos FFF se emparejan con sus respectivas consultas para que el LLM solo reciba información relevante.

Además, Acurai remapea cualquier texto modificado para eliminar las colisiones de sintagmas nominales y utiliza marcadores de posición para elementos que contienen colisiones dentro de sí mismos, como referencias o citas, para luego reasignar las referencias originales en la respuesta. Los experimentos realizados con el corpus RAGTruth demuestran que Acurai eliminó el 100% de las alucinaciones en los cuatro conjuntos de datos, logrando una precisión perfecta en la generación de respuestas fieles y sin alucinaciones tanto para GPT-3.5 Turbo como para GPT-4.

A pesar de su éxito, Acurai tiene algunas limitaciones, entre ellas: la necesidad de utilizar pasajes fácticamente correctos, la eficacia probada solo con un número relativamente pequeño de pasajes y la necesidad de un chatbot basado en RAG similar para reflejar los resultados sin alucinaciones.

Otras limitaciones incluyen mayores costes operativos y latencia adicional en las respuestas a las consultas debido al preprocesamiento. A pesar de estas limitaciones, Acurai representa un avance significativo en la eliminación sistemática de las alucinaciones, estableciendo un nuevo estándar para lograr respuestas de IA coherentes, precisas y fiables (texto generado por Notebook).

Boletín 5
Diciembre
2024

Novedades en modelos de
generación de imágenes y videos

El campo de la inteligencia artificial generativa continúa evolucionando a un ritmo acelerado, con avances que redefinen lo que es posible en la creación de contenido visual. Durante diciembre de 2024, se han presentado herramientas innovadoras que llevan la generación de imágenes y videos a nuevos niveles de calidad, accesibilidad y personalización. Desde aplicaciones que permiten a los usuarios diseñar escenas fotorrealistas con facilidad, hasta plataformas que optimizan la creación de videos, estas tecnologías están marcando un antes y un después en diversos sectores, como el entretenimiento, la publicidad y la educación.

En este apartado exploraremos las novedades más destacadas en modelos de generación de imágenes y videos de este mes. Entre ellas se encuentran herramientas revolucionarias como apob, especializada en la creación de personajes consistentes a partir de una sola imagen; Maze.Guru, una plataforma colaborativa para diseñadores y creadores de obras de arte asombrosas; pollo.ai, enfocada en la generación de videos cortos personalizados; nim.video, nuevo modelo chino avanzado con inteligencia artificial; Haiper, con su nuevo modelo 2.5; Viggle AI, que permite crear 10 videos gratis diarios; y Gentube, que genera imágenes gratis y una relación de imágenes similares.

Cada una de estas herramientas aporta soluciones innovadoras que están transformando la forma en que interactuamos con el contenido visual y audiovisual.

Boletín 5
Diciembre
2024

En el boletín 2 de septiembre ya habíamos mostrado algunas imágenes consistentes generadas por RenderNet. En esta ocasión, presentamos la herramienta de IA apob, que nos entrega 80 créditos diarios, el entrenamiento de un modelo (con una sola foto), entre 16 y 24 imágenes, y cuatro intercambios de cara. El procedimiento para generar imágenes consistentes es el siguiente:

Ingresa a la plataforma de apob y crea una cuenta gratuita.
Sube una foto de referencia a partir de la cual quieres crear las imágenes consistentes. Para el ejercicio, hemos subido una foto de "Juanita", nieta del autor de este apartado.
Subimos la foto, le dimos un nombre y descripción a la modelo y dimos clic a aplicar. Creamos varias imágenes, ingresando el prompt y seleccionando un estilo.

Lo interesante es que Juanita es una niña de 10 años, pero la herramienta genera imágenes de Juanita adulta, tal como se observa en las siguientes imágenes.

Boletín 5
Diciembre
2024

Maze Guru se enorgullece de anunciar la integración de Flux , un modelo de texto a imagen de vanguardia, en su plataforma. ¿Y lo mejor? ¡Es completamente gratis y está disponible para todos los usuarios!

Hemos probado esta herramienta con el siguiente prompt: "Un conjunto de fotografías DSLR de alta calidad en las que la Virgen María y el Niño Jesús aparecen como modelos fotográficos. El conjunto consta de seis imágenes dispuestas en una cuadrícula de tres por tres. Cada imagen captura a la misma mujer en diferentes estados de ánimo: feliz, triste, tranquila, enojada, sonriente, con dolor."

Boletín 5
Diciembre
2024

Con los siguientes prompt "Fotografía realista en primer plano del rostro de Papá Noel, con el texto '{Novedades IAGen}' tatuado en su mejilla" (imagen de nuestra portada) y " fotografía ciberpunk de un primer plano del rostro de una mujer asiática con el texto '{Novedades IAGen}' tatuado en su mejilla. Tiene el pelo verde y gafas de sol con un tinte rosa y amarillo.", generamos estas imágenes:

Los prompt son adaptaciones de los presentados en el artículo de El gurú del laberinto.

Boletín 5
Diciembre
2024

GenTube es una nueva herramienta de IA generativa de imágenes gratuitas, que tiene como característica especial el mostrar, además de la imagen generada por el usuario, otras imágenes similares. En la siguiente presentación, mostramos imágenes que hemos generado con prompts tomados de Meri CreativAI, algunas acompañadas de una similar.

Boletín 5
Diciembre
2024

Kling, en el mes de diciembre, presenta su nueva herramienta Virtual Try-On, con la cual podemos cambiar el traje de un personaje. Para el ejercicio, lo hicimos con una imagen de Juanita:

Virtual Try-On es una tecnología de generación de imágenes que permite a los usuarios "probarse" prendas de vestir específicas de forma virtual. Imagina comprar en línea desde tu casa y encontrarte con una prenda elegante, ¡ni siquiera necesitas levantarte del sofá! Con solo cargar una foto, Virtual Try-on te permite ver cómo te quedaría la ropa, lo que hace que las compras en línea sean agradables y cómodas (Kling).

Aprovechamos las vestimentas nuevas de Juanita, para generar un video con las versiones 1.5 y 1.6 de Kling. Con la primera versión, es posible inlcuir una imagen inicial y otra final, de tal forma que pudimos hacer el cambio mágico de vestimenta en el siguiente video:

Boletín 5
Diciembre
2024

Un creciente número de videos con contenido generado por IA ha captado la atención en redes sociales, destacando especialmente Viggle AI. Esta herramienta se distingue por su capacidad para animar personajes con acciones específicas, generando contenido dinámico y atractivo (Laurel Gómez).

De las tres funciones que ofrece Viggle AI, hemos usado dos para nuestro ejercicio. La primera "Viggle AI Mix", integra un personaje en escenas de video existentes, creando contenido nuevo y atractivo. A diferencia de las tecnologías tradicio- nales, que solo sustituyen las facciones, Viggle AI Mix anima y reemplaza completamente el cuerpo del personaje, mante- niendo los elementos originales del video (haz clic sobre la imagen de la derecha, para que veas a Juanita reemplazando a nuestra modelo Gala de HeyGen).

La segunda función que hemos usado es Viggle AI Multi, que permite seleccionar un plantilla de video con uno, dos o tres personajes y reemplazarlos con las imágenes de los personajes que deseemos. Para nuestro ejeciccio, hemos puesto a dos Juanitas en el video que mostramos en la siguiente página.

Boletín 5
Diciembre
2024

Las capacidades de Viggle AI se han puesto de relieve cuando recientemente comenzaron a circular videos del personaje del Joker de Joaquin Phoenix reemplazando al rapero Lil Yachy en el Summer Smash Festival. La interfaz intuitiva de la plataforma y las potentes capacidades de inteligencia artificial captaron la atención de millones de usuarios, desde animadores profesionales, grandes streamers y estudios de producción hasta creadores de contenido y creadores de memes. Y Viggle AI ya estableció una comunidad vibrante en Discord, que atrae a 4 millones de miembros hasta la fecha, donde los animadores novatos y experimentados han podido obtener información de los demás y ampliar los límites de sus proyectos creativos (Amit Chowdhry).

Boletín 5
Diciembre
2024

Presentamos HunyuanVideo, un nuevo modelo de base de video de código abierto que muestra un rendimiento en la generación de video que es comparable, si no superior, a los modelos líderes de código cerrado. Para entrenar el modelo HunyuanVideo, adoptamos varias tecnologías clave para el aprendizaje de modelos, incluida la curación de datos, el entrenamiento conjunto de modelos de imagen y video y una infraestructura eficiente diseñada para facilitar el entrenamiento y la inferencia de modelos a gran escala. Además, a través de una estrategia eficaz para escalar la arquitectura del modelo y el conjunto de datos, entrenamos con éxito un modelo generativo de video con más de 13 mil millones de parámetros, lo que lo convierte en el más grande entre todos los modelos de código abierto (Tencent en Github).

Con esta nueva herramienta de Tencent (empresa china), generamos videos con el prompt "Video realista en primer plano del rostro de Papá Noel, con el texto '{Novedades IAGen}' tatuado en su mejilla", tanto en español como en inglés; para ello, usamos dos páginas que incorporan este modelo: agireact.com/t2v (solo texto a video) y nim (texto o imagen a video).

En ambas plataformas, no se observan mejoras al cambiar el prompt a inglés, los cuatro videos obtenidos generan bien el tatuaje en la mejilla, pero con un texto incomprensible. Los resultados, los presentamos a continuación (no incluimos el obtenido de imagen a video, pues solo hace un ligero movimiento del ojo).

Boletín 5
Diciembre
2024

Hunyuan Video de Tencent se destaca por la drástica reducción de costos y tiempo en la producción de videos, comparando los millones de dólares y meses de trabajo tradicionales con la facilidad y rapidez de la IA, que genera imágenes complejas en segundos con un solo clic. Hunyuan Video no solo crea imágenes realistas, sino también emociones y narrativas convincentes, algo considerado antes imposible.

En la siguiente página, arma la imagen animada tomada de https://nim.video/.

Boletín 5
Diciembre
2024

En el mundo actual, el contenido en video es el rey, y Haiper.ai hace que sea más fácil que nunca crear videos profesionales impresionantes. Esta plataforma permite crear videos de alta calidad de manera rápida y sin esfuerzo (Chandima Ekanayake). Lo que no pudimos lograr con Hunyuan Video, lo obtuvimos con Haiper:

Boletín 5
Diciembre
2024

LTX Studio ha incluido la herramienta de expresiones faciales ajustables.

En el siguiente objeto interactivo, el video superior es el original que generó LTX, al inferior le modificamos la expresión facila.

Boletín 5
Diciembre
2024

Música para celebrar las festividades navideñas con Tem Polor y Suno

A finales de noviembre, Suno anunciaba:

Hoy, estamos encantados de presentar la v4, el siguiente paso para permitirle hacer música a la velocidad de sus ideas. La v3 abrió nuevas puertas y, con la v4, hemos refinado lo que funcionaba y hemos agregado aún más. ¿El resultado? Mejor audio, letras más nítidas y estructuras de canciones dinámicas.

Nuevas funciones: ✨Remaster: mejora tus pistas a la calidad de la v4
📝Letras de ReMi: letras creativas de mayor calidad para elevar tu composición

🎨 Arte de portada: diseños nuevos que combinan con la onda de tu música.

Funciones populares ahora potenciadas por la v4: 🎶Versiones: reinventa originales en nuevos estilos
🎭 Personas: captura la onda de una pista y llévala a proyectos futuros.

Etiquétanos en tus canciones en @sunomusic en X, Instagram y TikTok. ¡Estamos ansiosos por escuchar lo que creas!

Por otra parte, surge TemPolor que tiene como objetivo ayudar a los creadores de contenido a mejorar su eficiencia. La plataforma impulsada por IA permite combinar y personalizar rápidamente la música para que se

Boletín 5
Diciembre
2024

adapte a proyectos únicos. Además, una descarga brinda uso comercial ilimitado de por vida de las pistas libres de regalías, sin tarifas ocultas ni complicaciones.

Dos villancicos generados con Suno versión 4:

Villancicos de navidad - Suno

Dos villancicos generados con TemPolor:

Villancicos de navidad - TemPolor

Boletín 5
Diciembre
2024

Los 12 días de Shipmas de OpenAI

En general, los 12 días de OpenAI mostraron una serie de lanzamientos y anuncios nuevos e innovadores que avanzan en el campo de la IA y la hacen más accesible y útil para todos. Estos lanzamientos se realizaron entre el 5 de diciembre y el 20 de diciembre.

Usando NotebookLM, creamos un cuaderno con cada uno los videos del canal @OpenAI de YouTube, de tal forma que obtuvieramos un podcast de cada uno de los lanzamientos.

En las siguientes páginas, presentamos una imagen del video y audio de cada uno de los lanzamientos de adviento de OpenAI (debes hacer clic sobre la imagen para escuchar el podcast).

Los cuatro lanzamientos más innovadores e impactantes de OpenAI en los "12 días de OpenAI", según ChatGPT, son:

Modelos de razonamiento o3 y o3-mini, diseñados para abordar problemas complejos con mayor precisión.
Sora, el generador de texto a video: OpenAI ha lanzado Sora, una herramienta que permite generar videos realistas a partir de descripciones textuales.
ChatGPT Pro: Se ha introducido una suscripción premium para ChatGPT, denominada ChatGPT Pro, que ofrece acceso ilimitado al modelo o1 y funciones avanzadas de voz.
Integración de SearchGPT: OpenAI ha integrado SearchGPT en ChatGPT, permitiendo a los usuarios realizar búsquedas en internet.

Boletín 5
Diciembre
2024

Día 1: o1 & ChatGPT Pro. Se lanza la versión completa de o1, que es más inteligente y rápida que la versión preliminar. También se lanza ChatGPT Pro, que ofrece acceso ilimitado a los modelos y funciones avanzadas, como el modo de voz y el modo o1 Pro para problemas más difíciles.

Día 2: Reinforcement Fine-Tuning Research Program. Se presenta una vista previa de ajuste fino de refuerzo (RFT), que permite a los usuarios ajustar fino o1 en sus propios conjuntos de datos. Esto permite crear modelos expertos capaces de sobresalir en tareas específicas.

Boletín 5
Diciembre
2024

Día 3: Sora. Se lanza Sora, un modelo de generación de vídeo que puede crear vídeos a partir de descripciones de texto o imágenes. También se introducen funciones como guión gráfico, remezcla, recorte, bucle y mezcla para editar y manipular vídeos.

Día 4: Canvas: Se lanza Canvas para todos los usuarios, lo que permite colaborar con ChatGPT en la escritura y la codificación. Canvas también se integra con GPT personalizados.

Boletín 5
Diciembre
2024

Día 5: ChatGPT en Apple Intelligence. Se anunció la integración de ChatGPT en iOS para iPhone, iPad y macOS, lo que permite a los usuarios utilizar ChatGPT sin problemas en sus dispositivos Apple.

Día 6: Voz avanzada con video. Se lanzó el modo de voz avanzada con video y pantalla compartida. Esta función permite a los usuarios tener conversaciones en tiempo real con ChatGPT usando video y audio.

Boletín 5
Diciembre
2024

Día 7: Proyectos. Se lanzan Proyectos en ChatGPT, lo que permite organizar conversaciones en carpetas inteligentes. Los proyectos también admiten archivos, instrucciones y Canvas.

Día 8: Búsqueda. La búsqueda de ChatGPT se lanza a todos los usuarios gratuitos registrados. Esto permite que ChatGPT acceda a información en tiempo real y busque en la web respuestas.

Boletín 5
Diciembre
2024

Día 9: Regalos para desarrolladores. Se lanza o1 de vista previa en la API, con funciones como llamadas a funciones, salidas estructuradas y mensajes de desarrollador. También se lanzan entradas de visión en la API. Se anuncia el ajuste fino de preferencias para GPT-4.

Día 10: 1-800-CHATGPT. Se lanza ChatGPT por llamada y WhatsApp para usuarios de EE. UU., lo que proporciona una forma más accesible de interactuar con el modelo.

Boletín 5
Diciembre
2024

Día 11: Work with apps. Se anuncia la compatibilidad con Apple Notes, Notion y Quip para las aplicaciones de escritorio de ChatGPT. Se introduce la extensión ChatGPT para Xcode en las aplicaciones de escritorio Mac, lo que permite generar código dentro del IDE.

Día 12: o3. Se anuncian dos nuevos modelos, o3 y o3 mini. o3 logra una nueva puntuación de última generación en el punto de referencia Arc AGI. o3 mini es un modelo de razonamiento eficiente que admite tres niveles de esfuerzo de razonamiento.

Boletín 5
Diciembre
2024

Conversando, en tiempo real, con ChatGPT y Gemini

Retornando a la carrera por ser el mejor, en el mes de diciembre, tanto OpenAI con ChatGPT como Google con Gemini, nos sorprenden con una novedosa función "mod voz y video en teimpo real.

El día 6 de los "Shipmas de OpenAI", como lo dijimos en el apartado anterior, se lanzó el modo de voz avanzada con video y pantalla compartida. En el siguiente video, presentamos una demostración de su uso.

Boletín 5
Diciembre
2024

El 11 de diciembre, Google nos sorprende con el siguiente lanzamiento:

Hoy lanzamos nuestra próxima era de modelos construidos para esta nueva era de agentes de la IA: presentamos Gemini 2.0, nuestro modelo más capaz hasta la fecha. Para ayudar a los desarrolladores a crear aplicaciones dinámicas e interactivas, también vamos a lanzar una nueva API Multimodal Live que cuenta con audio en tiempo real, entrada de vídeo en streaming y la posibilidad de utilizar varias herramientas combinadas.

En el siguiente video, presentamos una demostración del uso de esta función.

Boletín 5
Diciembre
2024

Podcast interactivo en NotebookLM

NotebookLM, la herramienta de investigación impulsada por inteligencia artificial de Google, está revolucionando la forma en que estudiantes, profesionales y organizaciones interactúan con la información. NotebookLM presenta ahora interactividad en sus populares Audio Overviews. Desde su introducción, los Audio Overviews han acumulado más de 350 años de tiempo de reproducción. Ahora, los usuarios pueden “unirse” a estas sesiones y hacer preguntas directamente a los anfitriones virtuales. Esta función transforma los resúmenes en conversaciones interactivas, como si tuvieras un tutor personal que adapta las explicaciones a tus necesidades.

Conoce esta interactividad, a través del siguiente video:

Boletín 5
Diciembre
2024

Google Learn About, un motor de búsqueda con listas interactivas

Learn About es una herramienta experimental de Google que ha sido diseñada como un “compañero de aprendizaje” potenciado por IA y orientado a brindar una experiencia de estudio conversacional. El núcleo de esta innovación es LearnLM, un modelo de lenguaje desarrollado sobre la base de Gemini, ajustado específicamente para facilitar el proceso educativo (Infobae).

A la fecha, solo está disponible en Estados Unidos y en idioma ingles. No obstante, usando una VPN en el navegador Opera, pudimos usar esta herramienta, tal como se observa en el siguiente video:

Al inicio trata de responder en español, pero luego cambia estrictamente al idioma inglés.

Boletín 5
Diciembre
2024

Novedades de WebSim

Actualmente, WebSim ha incorporado los últimos modelos de lenguaje, como Gemini 2.0 flash (por defecto), Claude Sonet 3.5, Llama 3.3 y o1 mini. En el plan libre permite 50 generaciones y 100 imágenes por día.

En este apartado, vamos a presentar algunas genera- ciones interesantes, crea- das en el mes de diciem- bre.

Santa: Vehicular Ram- page, es un juego creado por @frogsforever, opor- tuno para esta época navideña.

Los juegos de @BookwormKevin en WebSim, de los cuales destacamos:

3D Driving Simulator, un auto con el que se deben recoger orbes amarillos para aumentar la aceleración.

25 Red Pegs, que consiste en eliminar las 25 bolas rojas.

3D ball rolling en las versiones 1 y 2, que presentamos en las siguientes páginas.

Boletín 5
Diciembre
2024

Usa WASD o las teclas de flecha para hacer rodar la bola arcoíris.
¡Reúne todas las monedas que giran y llega a la plataforma cuadriculada para avanzar al siguiente nivel!
¡Ten cuidado con los agujeros! ¡Si caes en uno, se reiniciará el nivel!

Boletín 5
Diciembre
2024

Usa WASD o las teclas de flecha para hacer rodar la bola arcoíris ¡Reúne todas las gemas giratorias y llega a la plataforma cuadriculada para avanzar al siguiente nivel!
¡Ten cuidado con los agujeros: si caes en uno, se reiniciará el nivel!
¡Reúne potenciadores para obtener habilidades temporales! ¡Presiona la barra espaciadora para saltar cuando tengas el potenciador de salto!

Boletín 5
Diciembre
2024

Introducción

La carrera por la inteligencia artificial: Gemini 2.0, Llama 3.3, Grok y otros gigantes se enfrentan en diciembre

Creando Villancicos con Mureka

Modelos abiertos

Modelos lingüísticos

Modelos multimodales

Creando un Chatbot con Mistral Large

Los cuadernos de Elicit se pueden compartir

Amazon Nova: Una nueva generación de modelos base

Math-GPT y otros chatbots de matemáticas

Video Podcast a partir de un PDF con HeyGen

Artículo: "Acurai afirma la eliminación del 100% de las alucinaciones"

Novedades en modelos de generación de imágenes y videos

Música para celebrar las festividades navideñas con Tem Polor y Suno

Los 12 días de Shipmas de OpenAI

Conversando, en tiempo real, con ChatGPT y Gemini

Podcast interactivo en NotebookLM

Google Learn About, un motor de búsqueda con listas interactivas

Novedades de WebSim

Amazon Nova: Una nueva
generación de modelos base

Novedades en modelos de
generación de imágenes y videos