Agosto - 2024
Número 1

Red Educativa Digital Descartes
Córdoba (España)
descartes@proyectodescartes.org
https://proyectodescartes.org

Revista Digital Red Descartes
https://proyectodescartes.org/revista/index.html

Esta obra está bajo una licencia Creative Commons 4.0 internacional: Reconocimiento-No Comercial-Compartir Igual.

CONTENIDO

02	¡Actualización de Gamma AI!

04	FLUX.1 de Black Forest Labs

07	Ideogram versión 2.0

08	KLING AI. La amenaza china de Sora

10	Mistral Large 2 ¿Qué tan bien razona?

12	LLaMA-3.1–405B vs GPT-4o

13	Leyendo documentos con LM Studio 0.3.0

15	ImageFX 2024 de Google

CONTENIDO

18	Gemma 2B: El pequeño titán de la IA

21	PicLumen, un generador de imágenes de IA 100% gratuito

23	WebSim: la revolucionaria herramienta de inteligencia artificial para la creación instantánea de sitios web y aplicaciones

27	Portadas con fluxpro.art

28	Entre los artefactos de Claude y las creaciones de WebSim, compite v0 de Vercel

¡Actualización de Gamma AI!

La última actualización de Gamma presenta algunas novedades como:

Sugerencias para la edición de diapositivas, lo que ayuda a los usuarios a mejorar su escritura, generar mejores imágenes y proponer diferentes diseños.
Acceso a modelos de imágenes de IA de vanguardia, incluidos Flux, Playground 2.5 y Google Imagen (ver video 1).
Importación de PDF, PPTX y de URL, facilitando la incorporación de contenido existente.

Vídeo

Uso de imágenes generadas por IA.

Boletín 1/agosto 2024

Gamma otorga 400 créditos en la suscripción gratuita, que van aumentando con las visitas a la presentación. La inscripción puede hacerse desde este enlace.

A continuación, se puede observar una presentación generada con Gamma, usando un texto de lanzamiento del primer número de este boletín.

Boletín 1/agosto 2024

Flux.1. Una nueva era de creación

En las últimas semanas, Flux.1, el último modelo de imagen de Blackforest Labs, se ha vuelto viral en la comunidad de IA. Este modelo de peso abierto ha recibido muchos elogios tanto de usuarios ocasionales como de empresas emergentes por crear imágenes tan impresionantes como las de Midjourney V6.1 (Jim Clyde Monge).

Flux.1 es un nuevo conjunto de modelos de texto a imagen de última generación (SOTA) que establecen un nuevo estándar en detalle de imagen, precisión de indicaciones, variedad de estilos y complejidad de escena para la generación de texto a imagen, viene en tres variantes (Ibid):

Flux.1 Pro: este modelo ofrece un rendimiento de nivel superior en generación de imágenes, sobresaliendo en rápida adherencia, calidad visual, detalle de imagen y diversidad de salida.
Flux.1 Dev: un modelo simplificado y orientado diseñado para uso no comercial, Flux.1 Dev se deriva de Flux.1 Pro y ofrece una calidad comparable y una precisión rápida, al mismo tiempo que es más eficiente que los modelos típicos de su tamaño.
Flux.1 Schnell: el modelo más rápido de la suite, diseñado para desarrollo local y uso personal, está disponible bajo una licencia Apache 2.0.

Boletín 1/agosto 2024

¿Dónde usarlo?

En el lanzamiento, Blackforest Lab presenta cuatro enlaces para probar los modelos, algunas solo permiten generar un mínimo reducido de imágenes. Días despúes, varias herramientas de IA generativas de imagen, han incorporado algunos modelos de Flux.1; por ejemplo, Grok 2 mini de Meta o Gamma que descartó DALL-E 3 para incorporar Flux. Presentamos algunos enlaces:

Flux.1 AI. Otorga pocos créditos en el plan libre.

Hugging Face. Se puede probar el modelo [dev].

Freepik Pikaso. Se puede probar el modelo [Schnell] con varios créditos otorgados diariamente.

Night Café. Se puede probar el modelo [Pro] con tres imágenes y libre el modelo [Schnell].

mage. Modelo [Schnell], los otros modelos son de pago.

Poe. Se puede probar el modelo [Schnell], los otros modelos son de pago.

TensorArt. Otorga 150 créditos diarios y 20 generaciones en el modelo [Dev], los otros modelos son de pago.

SeaArt. Otorga 150 créditos diarios y generaciones en el modelo [Dev].

Glif. 20 generaciones diarias en el modelo [Schnell], [Pro] y [Dev], además de incluir controles como Steps y Pormpt Power.

octoai. Otorga 10 dólares y permite generaciones en el modelo [Schnell].

Boletín 1/agosto 2024

Usamos el prompt propuesto por Jim Clyde Monge: Foto Polaroid con filtro VSCO, 1990, mujer hermosa, mañana, foto con flash, rubia, linda, rostro joven, hermosas sombras, plantas tropicales, ropa urbana, dentro de un apartamento, DSLR, sosteniendo un cartel escrito con bolígrafo en un cuaderno que dice, en español, “Esta foto fue creada con Flux.1". En todas las herramientas anteriores, la foto fue bastante buena, pero fallaron en el texto, excepto si el prompt se escribe en inglés (foto 7 en el presentador). Por el contrario, Ideogram lo logró en las primeras imágenes generadas (fotos 8 a 10):

Boletín 1/agosto 2024

Ideogram 2.0

Ideogram acaba de lanzar la versión 2.0 de su modelo avanzado de texto a imagen con importantes actualizaciones y nuevas características, incluidos cinco nuevos estilos de imagen, una aplicación para iOS, una API beta y más de mil millones de imágenes públicas de Ideogram.

Ideogram 2.0 ofrece cinco estilos de imagen: General, Realista, Diseño, 3D y Anime. El estilo realista se asemeja convincentemente a fotografías con texturas notablemente mejoradas para rasgos humanos como las manos y el cabello, un punto débil de los modelos de generación de imágenes anteriores. Ideogram ofrece un nivel gratuito que permite a los usuarios generar alrededor de 40 imágenes o 10 indicaciones por día sin cargo (@ideograma_ai).

Características como las manos, los ojos, la piel y el cabello humanos parecen sorprendentemente reales.

Boletín 1/agosto 2024

KLING AI. La amenaza china de Sora

Kling es un producto de la empresa china Kuaishou , mientras que Sora es un producto de OpenAI. Ambas empresas son actores importantes en la industria tecnológica, pero provienen de diferentes ámbitos y ofrecen distintos tipos de servicios (Biblioteca Comunitaria de Belgrado.

Kling fue lanzado al público en junio de 2024, es un modelo sofisticado desarrollado por el equipo Kuaishou Big Model. Su característica más destacada es su capacidad para crear vídeos artísticos y muy detallados con facilidad. El lema “KLING, HAZ QUE LA IMAGINACIÓN COBRE VIDA” capta acertadamente su esencia. Los usuarios pueden deslizar el dedo para explorar su gama completa de capacidades, que incluyen la generación de vídeos de hasta 2 minutos de duración con una velocidad de cuadros de 30 fps (Pedro Xing).

Probamos el generador de imágenes con el exigente prompt que usamos para Flux.1, pero también falló en la generación del texto.

Para la generación de video, usamos el prompt "Un dron muestra una vista aérea de Madrid". Tanto la imagen como el video, los presentamos en la siguiente página.

Boletín 1/agosto 2024

Vídeo

Vista aérea de Madrid, según Kling.

Boletín 1/agosto 2024

Mistral Large 2 ¿Qué tan bien razona?

Mistral, el fabricante francés de LLM, lanzó a finales de julio su nuevo modelo llamado Large 2. Entre sus características, se destaca: 23 mil millones de parámetros. capacidades de razonamiento, conocimiento y codificación de última generación, multilingüe y ventana de contexto de 128K.

Hicimos una primera prueba de codificación, con la siguiente indicación: "Dame el código HTML5, para una presentador de diapositivas de 600x600 pixeles. Incluye los botones para adelantar o retroceder las diapositivas y diferentes tipos de transición. La presentación tiene 5 diapositivas de imágenes: images/1.png, images/2. png hasta images/5.png". El resultado obtenido se ajusta bien al prompt; sin embargo, le pedimos, adicionalmente, " Incluye un marco transparente con borde de color degradado y más transiciones", cuyo resultado mostramos en la siguiente página.

Conclusión

Le doy una puntuación de 6,5/7. ¡Qué rendimiento tan magnífico el del nuevo modelo Mistral!

Thomas Reid

Boletín 1/agosto 2024

En la prueba de razonamiento estuvo a medias (3.5/7). Usamos el prompt propuesto por Reid; " En una habitación hay tres personas. La primera está leyendo un libro y la segunda está jugando al ajedrez. En función de esto, ¿cuál es la actividad más probable que esté realizando la tercera persona?".

Boletín 1/agosto 2024

LLaMA-3.1–405B vs GPT-4o

El 24 de julio, Meta publicó oficialmente el código abierto de Llama 3.1, que incluye versiones con parámetros 8B, 70B y 405B. Los modelos admiten un contexto de 128k y son competentes en ocho idiomas, incluidos inglés, alemán, español y francés.

Hicimos dos pruebas con Llama-3.1–405B y GPT-4o, la de razonamiento lógico de Reid, en la que ambos LLM respondieron bien. La segunda prueba fue de matemáticas, fallando LLaMA-3.1.

La prueba la hicimos en el chat arena (lmsys.org), tal como se muestra en este video:

Vídeo

Confrontando LLaMA-3.1–405B con GPT-4o.

Boletín 1/agosto 2024

Leyendo documentos con LM Studio 0.3.0

LM Studio 0.3.0: ¡Chatea con documentos!

¡Estamos muy emocionados de compartir LM Studio 0.3.0 con ustedes! Es algo en lo que hemos estado trabajando durante meses y marca la mayor actualización de LM Studio hasta la fecha.

Puedes descargar LM Studio 0.3.0 desde https://lmstudio.ai.

Qué hay de nuevo:

Nuevo : Chat integrado con documentos (también conocido como RAG)📑
Nuevo : detección y descarga automática de GPU🎛️
Novedad : la interfaz de usuario ahora también está disponible en español, alemán, francés, noruego, turco y ruso.🗺️
Nuevo : Gestión de conversaciones (carpetas, notas, clonación y ramificación de chats)📂

Boletín 1/agosto 2024

LM Studio 0.3.0 incluye una funcionalidad integrada para proporcionar un conjunto de documentos a un LLM y hacer preguntas sobre ellos. Si el documento es lo suficientemente breve (es decir, si cabe en el "contexto" del modelo), LM Studio agregará el contenido del archivo a la conversación en su totalidad. Esto es particularmente útil para los modelos que admiten un contexto extenso, como Llama 3.1 y Mistral Nemo de Meta. Si el documento es muy largo, LM Studio optará por utilizar la "generación aumentada de recuperación", a la que se hace referencia con frecuencia como "RAG" (extraer fragmentos relevantes de un documento muy largo) y proporcionárselos al modelo como referencia (Blog LM Studio).

En el siguiente video, se observa el uso del RAG en LM Studio.

Vídeo

Usando LM Studio versión 0.3.0.

Boletín 1/agosto 2024

ImageFX AI Image 2024

Imagen 3 es nuestro modelo de texto a imagen de mayor calidad, capaz de generar imágenes con mejores detalles, iluminación más rica y menos artefactos que distraigan (Deepmind de Google).

Imagen 3 de Google, ahora ImageFX, generó mucha espectativa, por la supuest superioridad con los pesos pesados como Midjourney y DALL-E. Fui uno de los inscritos en la lista de espera, respuesta que nunca llegó. Pero, en febrero de 2024...

ImageFX actualmente solo está disponible en EE. UU., Kenia, Nueva Zelanda y Australia. Si te encuentras fuera de estas regiones y deseas probarlo, considera usar una VPN como Nord VPN.

Por un tiempo, solía visitar Google Labs, pero la respuesta era la misma... "No está disponible en tu país", así que me olvidé de la IA generativa de imagen de Google, pues DALL-E 3, Ideogram, Leonardo y ahora Flux.1, eran más que suficientes.

Recientemente, me encontré con artículo de Adisson Best, titulado "Flux-1 vs ImageFX (Imagen 3): el primer producto de inteligencia artificial de Google que no apesta".

Boletín 1/agosto 2024

Luego de leer el artículo, ingresé a ImageFX e hice, también, mi análisis comparativo, usando un prompt de Andrew Best:

Retrato fotorrealista en primer plano de una mujer mayor con arrugas profundas y cabello plateado. Lleva un chal tejido tradicional y tiene una sonrisa amable y curtida. El fondo es un entorno natural simple y desenfocado que centra toda la atención en su rostro (Andrew Best).

Generé imágenes con DALL-E 3, Flux.1 Pro, Leonardo e ImageFX. En general, todas generaron buenas imágenes; sin embargo, en ImageFX tuve que recortar parte del prompt, pues al parecer, Google censura palabras como "rostro", "cara" y "face", quizá para evitar los famosos y virales deepfake. Al retornar el artículo de Addison, le ocurrió lo mismo, al tratar de generar fotos de Trump en un mitin o de Roger Federer jugando al tenis. Por suerte, eoncontré que NightCafé ha incorporado ImageFX "sin censura". En la presentación de la siguiente página, muestro las imágenes generadas.

Modelos en NightCafé, entre ellos Imagen 3.0 de Google.

Boletín 1/agosto 2024

Gemma 2B: El pequeño titán de la IA

Gemma 2B es la máquina de bolsillo que está revolucionando el mundo de la IA. Esta última incorporación a la familia Gemma ofrece una gran potencia y un rendimiento impresionante a pesar de su tamaño compacto. En pocos días, los chicos de Google DeepMind lograron lo imposible. El recién lanzado Gemma-2 2B supera todos los modelos GPT-3.5 en Chatbot Arena (Fabio Matricardi).

Rendimiento del último punto de control de Gemma 2 junto con las métricas de preentrenamiento de referencia (Warkentin et al.

En el siguiente video, puedes observar la interacción con Gemma-2 2B en local (LM Studio) y en línea con Hugging Face.

Boletín 1/agosto 2024

Vídeo

Conversando con Gemma-2 2B.

En el video se aprecia, nuevamente, la ventaja del RAG de LM Studio, pues pudimos conversar con el libro "Inteligencias artificiales 2024" a través de Gemma-2 2B, algo que no esposible hacer usando Hugging Face.

Hicimos varias pruebas con este modelo de lenguaje, rspondiendo bien a la clásica pregunta ¿Qué número es mayor 9.11 o 9.9?, pero fallando en la pregunta de lógica. Le pedimos, también que generara un código HTML5 para un presentador de diapositivas, en el cual tampoco tuvo éxito.

En la siguiente presentación, puedes ver algunas respuestas de Gemma-2 2B a otras preguntas y los resultados obtenido.

Boletín 1/agosto 2024

PicLumen, un generador de imágenes de IA 100% gratuito

PicLumen, herramienta de IA 100% gratuito fue recién lanzado en agosto, integrando Flux.1 [Schnell]. Con potentes modelos de IA y diversas herramientas creativas, PicLumen llega a una amplia audiencia que incluye tanto a artistas profesionales como a usuarios ocasionales.

PicLumen ofrece dos modos: imagen a imagen y texto a imagen, pudiendo generar imágenes en muchos estilos, como realista, anime, 3D, arte, surrealismo y arte lineal (PicLumen).

Hemos hecho una prueba de esta herramienta, junto con los n generadores de imágenes en PicFinder y WebSim, que también han incorporado Flux.1 [Schnell].

Usamos los prompts "Mujer joven, bonita, rubia, en una calle de Nueva York, sosteniendo un cartel que dice, en español, 'No soy real'" y "5 gatos jugando con pelotas, uno de los gatos está pintado de verde, al fondo hay un cartel que dice, en español, 'Gatos con pelotas'". Este último siempre ha sido un buen reto para las IA generadoras de imagen, pues los atributos a tener en cuenta, sumados, se vuelve complejos.

En el siguiente objeto interactivo, hay tres presentaciones de las tres IA utilizadas, observa, en especial, las imágenes de los gatos; por ejemplo, en PicLumen, hay tres imágenes muy cercanas al promt, fallando en el texto o en el gato pintado de verde. Las imágenes de gatos en PicFinder todas cumplen, pero fue fácil seleccionarlas entre decenas de imágenes que genera esta herramienta.

Boletín 1/agosto 2024

La última presentación, es un abrebocas a nuestra próxima novedad, que describimos en las siguientes páginas.

Boletín 1/agosto 2024

WebSim: la revolucionaria herramienta de inteligencia artificial para la creación instantánea de sitios web y aplicaciones

Antes de describir esta herramienta de IA, te informamos que, en cualquier momento, puedes acceder a la página de WebSim desde el botón de herramientas de este libro.

Rob Haisfield.

Actualmente, estoy desarrollando WebSim, una plataforma para crear y compartir aplicaciones web, juegos y otras experiencias interactivas. La mayor parte de este sitio web se escribió mientras trabajaba como consultor de estrategias de productos conductuales y gamificación, y ha tenido actualizaciones mínimas desde entonces (Rob Haisfield).

Lo que no alcanzó a dimensionar Haisfield es que esta innovadora plataforma diseñada para crear aplicaciones web dinámicas, juegos y espacios 3D a partir de indicaciones de texto o URL simples, "marca una evolución significativa en el desarrollo web, al agilizar el proceso de desarrollo y ampliar las posibilidades de diseño, generando límites más extensos de lo posible en la creación web, ofreciendo una forma más atractiva e interactiva de crear y experimentar contenido en línea" .

A la fecha (18-08-2024), el uso de la aplicación es gratuita, pero si el plan de pago no es excesivo, seguramente, serán muchos los que accederán a este excelente aplicación.

Boletín 1/agosto 2024

¿No lo creen?, entonces, observen el siguiente video, para conocer lo que podemos obtener.

Vídeo

Conversando con Gemma-2 2B.

El video nos muestra lo sencillo de usar esta aplicación. Pero, si eres un experto, puedes generar aplicaciones más complejas; por ejemplo, la aplicación FLUX PRO Image Generator, nos permitió generar una imagen con el prompt de los cinco gatos jugando con pelotas, uno de ellos pintado de verde y el cartel 'Gatos con pelotas' en español", que se ajustó bastante bien a lo solicitado.

Boletín 1/agosto 2024

Del artículo de Medium, hemos tomado:

Introducción a WebSim.ai 🌟

WebSim.ai es una herramienta de inteligencia artificial que te permite crear prototipos de sitios web o aplicaciones en cuestión de segundos. No necesitas saber cómo codificar ni tener conocimientos técnicos. Actualmente, su uso no cuesta nada y ni siquiera necesitas saber cómo dar instrucciones. ¡Esta herramienta te dejará boquiabierto!

Ingreso a WebSim.ai 🚀

Para acceder a WebSim.ai, no es necesario registrarse. Simplemente, inicie sesión con Google o Discord. Por ahora, la herramienta es gratuita, pero recomiendo encarecidamente que comience a usarla pronto, ya que es posible que no siga siendo gratuita por mucho tiempo. Profundicemos en las capacidades de WebSim.ai creando algo asombroso.

Personalizar la apariencia del sitio web 🎨

WebSim.ai generará un prototipo básico en segundos. Si no te gusta el aspecto inicial, puedes enviarle comentarios para que sea más atractivo visualmente. Por ejemplo, puedes pedirle que "lo haga más atractivo visualmente y moderno".

Compartir y descargar el sitio web 🌐

Una vez que el sitio web esté completo, puedes compartir el enlace con otras personas o descargar el código HTML. Utiliza la opción “descargar sitio web” para obtener el código HTML.

Boletín 1/agosto 2024

A continuación, presentamos algunas aplicaciones creadas con WebSim:

Boletín 1/agosto 2024

Portadas con fluxpro.art

Portadas creadas con fluxpro.art.

En este mes de agosto, son muchas las herramientas que han incorporado el conjunto de modelos de generación de imágenes Flux.1. Sin embargo, son pocas las opciones, en plan libre, que permiten el modelo Flux [pro]. Una novedad para los entusiastas de las IA generativas de imagen es la aparición de la herramienta de IA fluxpro.art.

A la fecha (28 de agosto de 2024), esta herramienta es 100% gratuita, oportunidad que hemos aprovechado para generar varias portadas, que puedes ver en el objeto interactivo de la derecha (haz clic sobre la imagen, para ver la siguiente).

Una opción, a la que hemos recurrido, es copiar algunas indicaciones creadas por la comunidad en estilos como: Póster, Anime, Fotografía, Ilustración, Fantasía, Hiperrealismo, entre otros.

Explora e inspírate con más de 3.717.928 indicaciones de Flux Pro y crea gratis

Boletín 1/agosto 2024

Entre los artefactos de Claude y las creaciones de WebSim, compite v0 por Vercel

No es una novedad reciente, pero "en el ámbito del desarrollo de interfaz de usuario, v0 por Vercel es otra herramienta revolucionaria que aprovecha el poder de la IA generativa para revolucionar la creación de componentes de interfaz de usuario. Este concepto innovador, denominado GenUI, utiliza modelos de IA, en particular modelos de aprendizaje de lenguaje (LLM), para crear código de interfaz de usuario de forma rápida y eficiente (AIToolScan.

v0 es un sistema de interfaz de usuario generativo de Vercel impulsado por IA. Genera código React fácil de copiar y pegar basado en shadcn/ui y Tailwind CSS que las personas pueden usar en sus proyectos (Vercel).

Pese al mensaje de Vercel sobre la generación de código React, probamos con la siguiente indicación:

Usa código HTML5 (CSS+HTML+JS) para un reproductor de canales de YouTube, que sean al menos tres canales. Cada canal corresponde a una lista de videos, debe haber botones para cambio de canal y cambio de videos.

Luego de varias interacciones con la herramienta, logramos obtener un reproductor que mostramos en la siguiente página. El código es fácil de intervenir, de tal forma que incluimos cuatro canales: libro interactivos con 12 videos, National Geographic en $360\degree$ con cuatro videos, trailers de películas de ciencia ficción con 15 videos y con tres videos TED talks.

Boletín 1/agosto 2024

En su plan libre, la herramienta otorga 200 créditos mensuales. Hemos creado dos juegos, el reproductor de YouTube, tres cuestionarios y aún no se ha agotado los créditos. Terminamos con el siugiente cuestionario, generado con v0:

Este es el enlace a este cuestionario https://v0.dev/chat/b/ibBFPti.

Boletín 1/agosto 2024