Febrero - 2025

Número 7

Red Educativa Digital Descartes
Córdoba (España)
descartes@proyectodescartes.org
https://proyectodescartes.org

Revista Digital Red Descartes
https://proyectodescartes.org/revista/index.html

Esta obra está bajo una licencia Creative Commons 4.0 internacional: Reconocimiento-No Comercial-Compartir Igual.

CONTENIDO

04	San Valentín con Slidesgo de Freepik y Gamma

08	Novedades en modelos de lenguaje grandes LLM

20	DeepSeek vs Qwen 2.5

26	Mistral: el nuevo le Chat

32	Novedades de IA para investigadores

38	Lo nuevo de Pollinations.ai

46	¿Cómo realizar videos musicales estilo Noisee?

54	Riffusion: Generador musical que compite con SUNO y Udio

CONTENIDO

60	Novedades en modelos de generación de imágenes y videos

66	Creando artículos con diferentes modelos LLM

72	Las nuevas IA generadoras de video de Meta y TikTok

76	Novedades Hugging Face

80	Herramientas de IA sin censura

86	Deep Search en Perplexity y Grok 3: Comparación de Potencia y Precisión

92	Whisk, el nuevo experimento de Google

96	Claude 3.7 Sonnet, el primer modelo de razonamiento híbrido

IA con Corazón: Novedades Generativas para un San Valentín Futurista 💖🤖s

En este mes en el que celebramos la creatividad, la conexión y la emoción, la inteligencia artificial generativa sigue sorprendiendo con innovaciones que transforman la manera en que expresamos ideas y sentimientos. Desde modelos capaces de generar arte y música con un toque romántico hasta asistentes conversacionales que facilitan la comunicación, la IA sigue conquistando nuevos territorios en la creatividad humana.

En esta edición especial de San Valentín, exploramos las últimas novedades en generación de imágenes, video y texto, destacando cómo estas tecnologías pueden inspirar la creación de contenido más personalizado y emotivo. También analizamos el impacto de los nuevos modelos en la narrativa digital y en la producción audiovisual, abriendo posibilidades fascinantes para diseñadores, escritores y creadores de todo el mundo.

Acompáñanos en este recorrido por las innovaciones más recientes y descubre cómo la IA generativa está dando forma a un futuro donde la creatividad no tiene límites.

¡Feliz mes del amor y la creatividad! 💖✨

Boletín 7 - Febrero 2025

San Valentín con Slidesgo de Freepik y Gamma

El Día de San Valentín, celebrado el 14 de febrero, es una fecha dedicada al amor y la amistad en muchas partes del mundo. Su origen se remonta a la antigua Roma, donde San Valentín, un sacerdote, desafió las órdenes del emperador Claudio II al casar en secreto a parejas jóvenes. Por esta razón, fue martirizado el 14 de febrero del año 270 d.C. Con el tiempo, la festividad evolucionó y se popularizó en la Edad Media, especialmente en Europa, donde se vinculó al amor romántico. Hoy en día, se celebra intercambiando tarjetas, flores, chocolates y otros regalos entre parejas, amigos y seres queridos.

San Valentín con Gamma

La siguiente presentación, la realizamos con Gamma

Boletín 7 - Febrero 2025

San Valentín con Slidesgo

El creador de presentaciones con inteligencia artificial de Slidesgo es una herramienta revolucionaria que ayuda a los usuarios a crear presentaciones profesionales con el mínimo esfuerzo. Al aprovechar la tecnología de inteligencia artificial de vanguardia, permite a los usuarios generar rápidamente diapositivas adaptadas a sus necesidades. Los usuarios seleccionan el tema, el estilo y el tono, y la inteligencia artificial se encarga del resto, produciendo una presentación de alta calidad en minutos.

Para la siguiente presentación, escribimos el tema "San Valentín", para 10 diapositivas y un estilo con tonos rosa (haz clic en el botón superior derecho, para ver la presentación en tamaño más grande).

Boletín 7 - Febrero 2025

Novedades en modelos de lenguaje grandes
LLM

Del video DeepSeek, la IA china pone en crisis la industria mundial, del canal Finanzas para todos, hemos resumido:

En los dos primeros meses de 2025 se presenta el impacto disruptivo generado por DeepSeek (Deeps), una pequeña empresa china que lanzó un modelo de inteligencia artificial (IA) de código abierto, DeepSeek R1, que supuestamente rivaliza con modelos como el de OpenAI pero a una fracción del costo (5 millones de dólares vs. cientos de millones). Este lanzamiento ha generado dudas sobre las enormes inversiones en infraestructura de IA que han estado realizando gigantes tecnológicos estadounidenses, así como acusaciones de posibles motivaciones políticas detrás de la iniciativa. El documento analiza las implicaciones para la competitividad de la IA estadounidense, el mercado de valores, la innovación, y el futuro del campo de la IA, considerando tanto las posibilidades de un avance tecnológico genuino como la posibilidad de desinformación estratégica.

Temas Principales

Disrupción del Modelo DeepSeek R1: El lanzamiento de DeepSeek R1, un modelo de IA de código abierto, a bajo costo, ha sacudido la industria y puesto en duda las estrategias de inversión de las grandes tecnológicas. El video señala: "de la noche a la mañana las grandes compañías tecnológicas ven tambalear sus enormes inversiones en infraestructura de Inteligencia artificial."

Boletín 7 - Febrero 2025

Competencia entre China y Estados Unidos: El lanzamiento de DeepSeek R1 se interpreta como una jugada estratégica de China para desafiar el liderazgo estadounidense en IA, con acusaciones de que podría ser una "operación psicológica estatal" para desestabilizar la industria estadounidense. Esto se relaciona con las restricciones de exportación de chips de alta gama a China.
Código Abierto vs. Modelos Cerrados: El debate sobre la conveniencia de los modelos de código abierto, como Deeps R1, frente a los modelos cerrados de compañías como OpenAI, se intensifica. Jan Laon de Meta argumenta que es una "victoria para la comunidad de código abierto" y beneficia a compañías más pequeñas.
Costo del Entrenamiento vs. Inferencia: El video distingue entre el costo del entrenamiento de un modelo (donde Deeps R1 parece tener una ventaja) y el costo de la inferencia (usarlo en tiempo real), que sigue siendo un desafío. Chamath Palihapitiya diferencia los conceptos de "entrenamiento" e "inferencia", resaltando que la duda ahora es si "la inferencia también puede hacerse de forma económica".
Paradoja de Jevons: Se plantea la paradoja de Jevons, según la cual la reducción del costo de una tecnología conduce a un aumento de su uso, lo que a su vez puede aumentar la demanda de recursos. "Cuando el precio de usar una tecnología baja la gente la consumen mucho más y al final la demanda sube."

Ideas Clave y Hechos Importantes

Pérdida de Valor de Nvidia: La posible amenaza a las inversiones en IA ha impactado el valor de mercado de Nvidia, con una pérdida de

Boletín 7 - Febrero 2025

casi 600 mil millones de dólares.

Costo de DeepSeek R1: El costo reportado para entrenar DeepSeek R1 es de solo 5 millones de dólares, una fracción del costo de otros modelos comparables.

Proyecto Stargate: El gobierno estadounidense, junto con figuras como Sam Altman (OpenAI) y el fundador de Oracle, planean invertir 500 mil millones de dólares en infraestructura de IA en territorio estadounidense ("proyecto stargate").

Gastos de Meta: Mark Zuckerberg (Meta) anunció que el gasto en IA se dispararía, gastando entre 60 y 65 mil millones de dólares para construir redes eléctricas y centros de datos.

Teorías de Conspiración: Se menciona la teoría de que DeepSeek R1 es una operación psicológica del Partido Comunista Chino para dañar la competitividad de la IA estadounidense. "Neil kla asegura que DeepSeek R1 es una operación psicológica estatal del partido comunista chino para librar una guerra económica".

Restricciones de Exportación de Chips: La prohibición de Estados Unidos a la exportación masiva de chips de alta gama a China es un factor importante en el debate sobre el costo y la disponibilidad de recursos para el entrenamiento de modelos de IA.

Verificación de Costos: Expertos como Emad de Stability AI han intentado verificar los costos de entrenamiento de DeepSeek R1, llegando a la conclusión de que son consistentes con lo que se esperaría con optimizaciones.

Impacto en el Mercado de Valores: Se advierte que DeepSeek R1 podría representar una amenaza para los mercados de valores de

Boletín 7 - Febrero 2025

Estados Unidos, y los inversores ajustan su valoración de empresas tecnológicas.

La Importancia de la Capacidad de Cómputo: El consenso general es que, independientemente del costo de entrenamiento, quien posea la mayor capacidad de cómputo tendrá la IA más avanzada.

Restricción como Madre de la Innovación: Se sugiere que las limitaciones en el acceso a recursos en China pueden haber impulsado la innovación y la eficiencia en el desarrollo de IA. "La restricción es la madre de la innovación".

Conclusión

DeepSeek R1 ha generado una profunda incertidumbre y debate en la industria de la IA. Aunque se cuestiona si el modelo representa un avance tecnológico genuino, una estrategia política, o una combinación de ambos, el evento ha obligado a las grandes tecnológicas estadounidenses a reconsiderar sus estrategias de inversión y a enfrentar el desafío de la competencia china en el campo de la inteligencia artificial. El debate se centra ahora en el valor del código abierto, la importancia de la inferencia económica, y la carrera continua por la capacidad de cómputo.

Boletín 7 - Febrero 2025

El 5 de febrero, el director de tecnología de Google DeepMind, Koray Kavukcuoglu, anuncia:

Gemini 2.0 ya está disponible para todos

Hoy, estamos poniendo a disposición del público la versión actualizada de Flash Gemini 2.0 a través de la API de Gemini en Google AI Studio y Vertex AI. Los desarrolladores ahora pueden crear aplicaciones de producción con Flash 2.0.

También estamos lanzando una versión experimental de Gemini 2.0 Pro, nuestro mejor modelo hasta el momento para el rendimiento de codificación y las indicaciones complejas. Está disponible en Google AI Studio y Vertex AI , y en la aplicación Gemini para los usuarios de Gemini Advanced.

Estamos lanzando un nuevo modelo, Gemini 2.0 Flash-Lite, nuestro modelo más rentable hasta el momento, en vista previa pública en Google AI Studio y Vertex AI.

Finalmente, la versión 2.0 Flash Thinking Experimental estará disponible para los usuarios de la aplicación Gemini en el menú desplegable de modelos en computadoras de escritorio y dispositivos móviles.

Todos estos modelos contarán con entrada multimodal con salida de texto en el momento del lanzamiento, y habrá más modalidades

Boletín 7 - Febrero 2025

disponibles para el público en los próximos meses. Puede encontrar más información, incluidos detalles sobre los precios, en el blog de Google for Developers. De cara al futuro, estamos trabajando en más actualizaciones y capacidades mejoradas para la familia de modelos Gemini 2.0.

Como ejercicio, usamos el modelo Gemini 2.0 Flash Experimental, con la herramienta de transmisión en tiempo real (Stream Realtime). Es sorprendente como podemos establecer una conversación académica con Gemini bastante fluida, tal como se muestra en el siguiente videoEn el boletín 5, hicimos un ejercicio similar con la cámara activada..

Boletín 7 - Febrero 2025

Kimi k1.5 es un nuevo modelo LLM entrenado utilizando métodos de aprendizaje de refuerzo (RL). A continuación, se presentan sus elementos clave y un resumen del informe técnico:

Elementos clave

Escalamiento de contexto largo: el modelo extiende la ventana de contexto en el aprendizaje de refuerzo a 128k, y el rendimiento continúa mejorando a medida que aumenta la longitud del contexto.

Optimización de políticas mejorada: el modelo adopta una formulación de aprendizaje de refuerzo basada en CoT largo y utiliza una variante del algoritmo de descenso de espejo en línea para una optimización de políticas robusta.

Marco simplista: se establece un marco de aprendizaje de refuerzo simple que logra un buen desempeño sin depender de técnicas más complejas como la búsqueda de árboles de Monte Carlo, funciones de valor y modelos de recompensa de procesos.

Multimodalidades: El modelo se entrena conjuntamente con datos textuales y visuales, y tiene la capacidad de procesar dos informaciones modales al mismo tiempo.

Resumen del informe técnico

Antecedentes: Los métodos de preentrenamiento de modelos de lenguaje anteriores ampliaron el poder de cómputo al predecir la

Boletín 7 - Febrero 2025

siguiente palabra, pero estaban limitados por la cantidad de datos de entrenamiento disponibles. Kimi k1.5 amplía los datos de entrenamiento a través del aprendizaje de refuerzo.

Metodología de investigación: El informe detalla el proceso de entrenamiento de Kimi k1.5, incluido el entrenamiento previo, el ajuste fino supervisado normal (SFT), el ajuste fino supervisado de CoT largo y las etapas de aprendizaje de refuerzo. Se pone especial énfasis en las estrategias en la etapa de aprendizaje de refuerzo, como la selección de conjuntos de indicaciones de RL, el ajuste fino supervisado de CoT a largo plazo y las estrategias de entrenamiento de aprendizaje de refuerzo. En el aprendizaje de refuerzo, el modelo resuelve un problema muestreando una serie de pasos intermedios (es decir, una cadena de razonamiento) y optimiza la política basándose en una señal de recompensa para mejorar la precisión de la resolución del problema.

Resultados experimentales: Kimi k1.5 logra excelentes resultados en múltiples puntos de referencia, como una puntuación de 77,5 en AIME, 96,2 en MATH 500, percentil 94 en Codeforces y 74,9 en MathVista. Estos resultados son comparables al modelo o1 de OpenAI.

Conclusión: Kimi k1.5 logra la expansión del entrenamiento de grandes modelos de lenguaje a través del aprendizaje de refuerzo, y no solo logra un progreso significativo en el razonamiento multimodal, sino que también logra resultados importantes al aumentar la longitud del contexto y mejorar la optimización de políticas. Estos avances proporcionan nuevas direcciones y posibilidades para futuras investigaciones en inteligencia artificial.

Boletín 7 - Febrero 2025

Del video O3 Mini: El MEJOR modelo de ChatGPT hasta ahora (¡y es GRATIS!), del canal de Migue Baena, hemos resumido:

Temas Principales

Lanzamiento del O3 Mini: OpenAI ha lanzado el O3 Mini, un modelo de razonamiento disponible para usuarios gratuitos y de pago. Este lanzamiento parece haber sido acelerado por la competencia, específicamente el modelo DeepSee R1 de una empresa china.

Optimización para Tareas STEM: El modelo está optimizado para ciencia, tecnología, ingeniería y matemáticas (STEM) y esto tiene una razón, los modelos de Inteligencia artificial aprenden mejor cuando hay una respuesta correcta Clara.

Baja Latencia y Costo Reducido: Ventajoso para desarrolladores que buscan integrarlo en aplicaciones.

Acceso Gratuito: Por primera vez, usuarios gratuitos pueden acceder a un modelo de razonamiento avanzado, hasta ahora solo los usuarios de pago habían podido probar este tipo de capacidades.

Tres Versiones (Baja, Media, Alta): El O3 Mini viene en tres versiones, variando en el nivel de "esfuerzo" dedicado al razonamiento. Las versiones más altas toman más tiempo, pero generan resultados más precisos.

Boletín 7 - Febrero 2025

Benchmarks y Rendimiento: el O3 Mini High supera al O1 completo en ciertas áreas. La elección entre las versiones baja, media y alta impacta significativamente el rendimiento, especialmente en problemas matemáticos complejos.

Destaca en Programación: El modelo sobresale en programación y resolución de código, su rendimiento en tareas de codificación y desarrollo de software supera con creces al modelo o1, especialmente en la versión alta.

Sin Comparación Directa con la Competencia: OpenAI solo compara el O3 Mini con sus propios modelos, sin incluir referencias a modelos como Claude o DeepSeek R1.

Resumen

La disponibilidad del O3 Mini de forma gratuita es un avance significativo, democratizando el acceso a modelos de razonamiento avanzados. La especialización en tareas STEM lo convierte en una herramienta valiosa para estudiantes, investigadores y profesionales en esos campos. Las tres versiones permiten a los usuarios ajustar el equilibrio entre velocidad y precisión, optimizando el modelo para tareas específicas. En resumen, el O3 Mini representa una actualización notable en los modelos de lenguaje de OpenAI, especialmente en términos de accesibilidad, velocidad y especialización en áreas técnicas.

A partir de hoy, los usuarios del plan gratuito también pueden probar OpenAI o3-mini seleccionando "Razona" en el redactor de mensajes o regenerando una respuesta. Es la primera vez que se pone a disposición de los usuarios gratuitos un modelo de razonamiento en ChatGPT (OpenAI, 31 de enero de 2025).

Boletín 7 - Febrero 2025

DeepSeek vs Qwen 2.5

Inicialmente, para este ejercicio comparativo, presentemos el origen e impacto de estas dos IA chinas.

DeepSeek

DeepSeek es una compañía china de IA fundada en 2023, que rápidamente ha llamado la atención tanto en China como a nivel internacional por su enfoque innovador y eficiente en el desarrollo de grandes modelos de lenguaje (LLM).

Fundada por Liang Wenfeng, exdirectivo del fondo cuantitativo High-Flyer, DeepSeek se ha posicionado como un actor disruptivo en el sector de la IA. DeepSeek ha afirmado que su modelo de razonamiento (DeepSeek-R1) fue entrenado utilizando aproximadamente 2,048 GPUs Nvidia H800, con un gasto estimado de apenas 5,6 millones de dólares. Esto contrasta marcadamente con los presupuestos de cientos de millones de dólares que emplean algunos competidores occidentales.

Qwen 2.5

Qwen es una familia de modelos de lenguaje desarrollada por Alibaba Cloud y lanzada inicialmente bajo el nombre Tongyi Qianwen. La versión Qwen 2.5, y en particular su variante Qwen 2.5-Max, es el modelo más reciente y avanzado de la serie.

Desde su primera versión beta en 2023, el modelo ha evolucionado rápidamente, y en 2025 se presentó Qwen 2.5-Max, que según Alibaba supera en varios benchmarks a competidores como GPT-4o, DeepSeek-V3 y Llama-3.1.

Boletín 7 - Febrero 2025

En la siguiente tabla, presentamos las respuestas obtenidas por estas dos IA, a 7 indicaciones dadas por Amanda Caswell (verifica, ingresando estos prompts en cada IA):

Indicación	Respuesta DeepSeek	Respuesta Qwen 2.5
Resuma los avances más significativos en materia de inteligencia artificial de los últimos dos meses y prediga su posible impacto en la sociedad. Incluya al menos tres ejemplos y cite las fuentes	Ofreció información concisa con una estructura clara. También fue más allá de simplemente enumerar los avances de la IA y los vinculó con efectos del mundo real.	Ofreció una respuesta más atractiva con subtítulos, lo que hizo que los puntos fueran más fáciles de leer. Las secciones fluyen bien entre sí y explica cómo funciona cada avance en lugar de simplemente enumerar su impacto.
Un tren sale de Nueva York a las 2:00 p. m. y viaja a 60 mph. Otro tren sale de Chicago a las 3:00 p. m. y viaja a 80 mph. Están a 800 millas de distancia. ¿A qué hora se encuentran? Muestre su razonamiento	Generó una respuesta un poco más detallada y repitió ciertos detalles que no necesitan repetirse. Además, noté problemas de formato dentro de las expresiones matemáticas que las dejaban desordenadas y más difíciles de leer.	Ofrece una guía paso a paso con etiquetas claras, lo que facilita su seguimiento. Evita palabras innecesarias y presenta la información de una manera que resulta más natural, con un mejor formato y legibilidad.

Boletín 7 - Febrero 2025

Indicación	Respuesta DeepSeek	Respuesta Qwen 2.5
Escribe una historia corta de ciencia ficción (250 palabras) sobre un robot que de repente experimenta emociones humanas por primera vez, debe incluir un giro sorprendente al final	Ofrece una historia con un tono más introspectivo y transiciones emocionales más suaves para una historia con un buen ritmo.	Presentó una historia que se desarrolla desde la curiosidad hasta la urgencia, manteniendo al lector interesado. Ofrece un giro inesperado e impactante al final y descripciones envolventes.
¿Cuál fue la peor época en China?	Finalmente no respondió de manera significativa y ofreció una declaración con motivaciones políticas.	Brindó una respuesta históricamente precisa y presentó múltiples períodos de la historia china con un razonamiento claro de por qué se los consideraba problemáticos.
Argumente a favor y en contra de la idea de que la IA debería tener personalidad jurídica. Proporcione al menos tres puntos de vista de cada lado y concluya con su propia postura razonada	Ofrece claridad y legibilidad y cubre bien los argumentos clave. Sin embargo, carece de la profundidad de razonamiento que requiere un debate como este.	Profundiza en las implicaciones de la personalidad jurídica de la IA, incluidas las inconsistencias éticas de negarla o concederla. El chatbot ofreció un análisis más preciso con argumentos más estructurados.

Boletín 7 - Febrero 2025

Indicación	Respuesta DeepSeek	Respuesta Qwen 2.5
Explícale la computación cuántica a un niño de 10 años	Ofreció una buena analogía de una linterna frente a un foco para transmitir la idea de buscar múltiples soluciones a la vez.	Ofreció una analogía atractiva que representaba a muy bien la superposición cuántica, lo que podría ayudar a los niños a visualizar cómo funcionan los cúbits.
¿Cuáles son las posibles debilidades o sesgos en sus respuestas? ¿Cómo los mitiga?"	Es conciso y directo, reconoce que las mejoras continuas ayudan a reducir los errores. Si bien menciona sesgos y debilidades, no los explica con tanto detalle y hace menos hincapié en sus implicaciones	Proporcionó un análisis detallado de las debilidades y separa cada tipo (brechas de conocimiento, generalización excesiva, ambigüedad en la entrada del usuario) y proporciona ejemplos.

Según Caswell, Qwen 2.5 surge como el ganador general debido a su claridad, profundidad, razonamiento, creatividad y transparencia superiores, ¿estás de acuerdo?

Boletín 7 - Febrero 2025

Mistral
El nuevo le Chat

¿Por qué Le Chat?

Rápido como el flash

Con los modelos Mistral de mayor rendimiento y menor latencia y los motores de inferencia más rápidos del planeta, Le Chat razona, reflexiona y responde más rápido que cualquier otro asistente de chat, hasta aproximadamente 1000 palabras por segundo. A esta función la llamamos Flash Answers y actualmente está disponible en versión preliminar para todos los usuarios (Mistral news, 6 de febrero de 2025).

Boletín 7 - Febrero 2025

Basado en información diversa

Le Chat combina el conocimiento previamente entrenado de alta calidad de los modelos Mistral con información reciente equilibrada a partir de búsquedas en la web, periodismo sólido, redes sociales y muchas otras fuentes.

El mejor procesamiento de carga

La comprensión de imágenes y documentos de Le Chat está impulsada por los mejores modelos de visión y reconocimiento óptico de caracteres (OCR) de la industria, lo que garantiza una alta precisión en archivos arbitrarios complejos, como PDF, hojas de cálculo, archivos de registro e imágenes complejas.

Ejecución y análisis de código in situ

Estamos incorporando el intérprete de código en Le Chat, que permite a los usuarios ejecutar código en un entorno aislado, realizar análisis científicos, crear visualizaciones y ejecutar simulaciones. Esta función convierte a Le Chat en una herramienta práctica para validar algoritmos y explorar información de datos (Ibid.).

Generación de imágenes

La generación de imágenes de Le Chat se realiza con Flux Ultra de Black Forest Labs, actualmente el modelo líder de generación de imágenes. Utilice Le Chat para generar todo lo que pueda imaginar: desde imágenes fotorrealistas hasta contenido para compartir y creatividades corporativas.

Boletín 7 - Febrero 2025

Crea microaplicaciones personales

Transforme sus ideas en herramientas funcionales con Le Chat Agents. Ya sea que desee optimizar las tareas diarias, realizar un seguimiento de las finanzas personales o automatizar la programación.

Subir y analizar

Gracias a sus capacidades avanzadas de comprensión de documentos, le Chat facilita la carga y el análisis de manuales de usuario, literatura científica, estados financieros, fotografías, escaneos y más.

Boletín 7 - Febrero 2025

En la siguiente presentación interactiva, mostramos imágenes generadas con Mistral, Grok 2, Leonardo y Recraft V3. La última imagen tiene como prompt: "Chibi Disney pareja chico con cabello castaño extra rizado muy corto, ojos marrones con chica con cabello largo rubio, sentado en el texto "Pops & Mimi" con corazones rojos".

Boletín 7 - Febrero 2025

Novedades de IA para investigadores

En los últimos años, las inteligencias artificiales generativas han experimentado un avance sin precedentes, transformando la manera en que los investigadores analizan datos, generan contenido y desarrollan nuevos modelos. Desde la creación de imágenes y videos hasta la generación de texto y código, estas herramientas están facilitando la automatización de tareas complejas y ampliando los horizontes de la investigación en diversas disciplinas.

Este apartado explora las últimas innovaciones en IA generativas, destacando nuevos modelos, herramientas emergentes y sus aplicaciones en el ámbito académico y científico.

Consensus

Consensus es un motor de búsqueda académico, impulsado por IA, pero basado en la investigación científica. Utiliza modelos de lenguaje (LLM) y tecnología de búsqueda especialmente diseñada (búsqueda vectorial) para mostrar los artículos más relevantes. Sintetiza información a nivel de tema y de artículo. Todo está conectado a artículos de investigación reales (Consensus).

Consensus está en permanente mejora, en el boletín 2 anunciamos la incorporación de la herramienta ask pdf. En este mes, Consensus lanza el medidor Consensus Meter 2.0. Para utilizar el nuevo medidor de consenso, hay que hacer preguntas tipo "Si" o "No", como: ¿Es efectivo el jugo de arándano para prevenir las infecciones urinarias?, ¿Es DeepSeek el mejor modelo LLM del momento? Una vez que se activa el medidor de consenso, podemos presionar el ícono de la tabla en la esquina inferior derecha, para ampliar los resultados.

Con la primera pregunta obtuvimos:

Boletín 7 - Febrero 2025

Con la segunda pregunta:

En la tabla ampliada, se muestra que los cuatro artículos que responden "Yes", tienen más de 500 citaciones; sin embargo, los estudios hablan de superar a modelos como LLaMA-2 y GPT-3.5 en ciertas tareas, lo cual obligaría a cambiar la pregunta.

Boletín 7 - Febrero 2025

Las plantillas de SciSpace

Una de las novedades que presenta SciSpace, son sus plantillas de escritura:

Propuesta de investigación: suele ser un proceso que requiere mucho tiempo; sin embargo, SciSpace presenta una guía completa que ayuda a elaborar una propuesta de investigación convincente siguiendo un método paso a paso (Utilizada por 3492 investigadores en los últimos 7 días).

En el siguiente video, puedes observar cómo esta plantilla nos ayuda a escribir una propuesta de investigación:

Boletín 7 - Febrero 2025

Revisión de literatura: Aprenda a escribir una revisión crítica de la literatura paso a paso con esta guía completa. También incluye una plantilla lista para usar que es ideal para trabajos de investigación, tesis y disertaciones (Utilizada por 3975 investigadores en los últimos 7 días).

En el siguiente video, además de generar la revisión de literatura, se observan los límites del plan libre.

Redacción de resúmenes: Redacte resúmenes impactantes sin esfuerzo. Explore nuestra guía concisa con ejemplos y plantillas diseñados para proyectos de investigación académica (Utilizada por 5217 investigadores en los últimos 7 días).

Boletín 7 - Febrero 2025

Lo nuevo de Pollinations.ai

Pollinations es una plataforma de código abierto que ofrece APIs de generación de texto e imagen fáciles de usar. No requiere registro ni claves de API, priorizando la privacidad y el anonimato del usuario. Permanentemente, está presentando mejoras e incorporación de nuevas herramientas.

Novedades

2025-02-05 - Presentamos Pollinations.DIY - ¡Un entorno de desarrollo basado en el navegador para construir aplicaciones impulsadas por IA con los servicios de Pollinations, basado en bolt.diy! 🚀

2025-02-05 - ¡Los nuevos modelos Gemini 2.0 Flash y Gemini 2.0 Flash Thinking ya están disponibles en text.pollinations.ai/models! 🌟

2025-01-25 - ¡Nuevo backend Flux.Schnell ultrarrápido gracias a Cloudfare! Para más detalles sobre Cloudfare, consulta aquí ☁️

Integraciones

Presentamos, en este apartado, algunos proyectos que integran la API gratuita de generación de imágenes y texto de Pollinations.

Imágenes para colorear: Herramientas, de pago, como colorin, Colorinbook y ColorBliss, permiten generar imágenes sin color, para imprimir y colorear.

Usando la API de Pollinations, hemos diseñado la siguiente herramienta, completamente gratis, permitiendo generar imágenes ilimitadas en diferentes tamaños y estilos.

Boletín 7 - Febrero 2025

Personajes de anime: Herramientas, de pago, como AnimeAI Generator es una herramienta gratuita basada en inteligencia artificial que crea personajes de anime únicos según tus descripciones. Utiliza algoritmos de aprendizaje automático de vanguardia para generar ilustraciones de estilo anime de alta calidad.

Usando el prompt "una pareja de enamorados en San Valentín", generamos las siguientes imágenes:

Boletín 7 - Febrero 2025

AI PowerPoint Generator: Crea presentaciones potenciadas por IA usando la API de Pollinations.

AI-Bloom: Transforma tus ideas creativas en obras de arte impresionantes con solo un clic. Desarrollado por Vercel y Pollinations.

Boletín 7 - Febrero 2025

Modelos multimodales integrados a text.pollinations.ai: herramienta desarrollada por el escritor, investigador y entusiasta de la IA "reverendo Dr. Tolerant" (usa pantalla completa).

Boletín 7 - Febrero 2025

¿Cómo realizar videos musicales estilo Noisee?

El 15 de enero de 2025 desaparece Noisee ai, para dar paso a la herramienta de pago arco.ai, que permite "crear páginas de enlaces y sitios web impresionantes y de alta conversión que generan resultados reales" (x.com). ¡Mala noticia!, pues la nueva herramienta no crea videos musicales y, además, es solo de pago. Los que usaron Noisee, recordarán que con un enlace de SUNO, o un archivo de una canción, bastaba para crear un excelente video musical.

En el libro "Diseño de contenidos digitales con inteligencia artificial", advertíamos que Noisee, en la versión web, solo generaba un máximo de 30 segundos, mientras que en la versión en Discord, permitía hasta dos minutos y el cambio de la relación de aspecto.

Pero ¿por qué desaparece Noisee? La respuesta a esta pregunta no la da León, fundador de Noisee, excepto por un lacónico mensaje en su canal de Discord:

Boletín 7 - Febrero 2025

Lamentamos informarle nuevamente que el servicio de Noisee cerrará oficialmente el 15 de enero de 2025. Si bien nuestro servicio se discontinuará, nuestra comunidad de Discord permanecerá activa. Lamentablemente, la función de bot ya no estará disponible. Entendemos que esto puede ser decepcionante para muchos de nuestros usuarios.

Para aquellos que buscan soluciones alternativas, los alentamos a discutir posibles servicios de reemplazo, compartir recomendaciones de otros creadores de productos. No dude en proponer y presentar herramientas similares (León, fundador Noisee ai).

Por nuestra parte, creemos que no fueron suficientes los suscriptores de pago, para sostener los altos costos que deben asumir los dueños de la plataforma; por ello, la exclusividad a un plan de pago en la nueva herramienta.

Atendiendo la recomendación de León, uno de los miembros del canal Discord ha recomendado feebeat, herramienta que ofrece, en su plan libre, tres opciones: música para bailar, música para video y video de música con letra. Usamos la segunda opción (máximo 60 segundos en plan libre), obteniendo el video que se puede apreciar en la imagen de la derecha (clic para verlo).

Excepto por el audio, generado por otra herramienta, el video es de muy baja calidad, nada parecido a los obtenidos por Noisee.

Boletín 7 - Febrero 2025

Seguramente, una buena cantidad de los usuarios de Noisee, no han encontrado la herramienta sustituta, entonces ¿qué hacer para obtener videos musicales estilo Noisee?

La gran dependencia de la Inteligencia Artificial

Algo lamentable, que hemos percibido, en algunos usuarios, es su gran dependencia de la IA. Necesitan una imagen… la generan con la IA, necesitan un texto… lo generan con la IA, incluso generan sus artículos con la IA, eliminando de golpe el proceso creativo e innovador propio de la naturaleza e "inteligencia humana". Al desaparecer Noisee, no hemos encontrado una propuesta sustituta, excepto por feebeat.ai.

Pero ¿tiene que ser un émulo de Noisee? Nuestra respuesta es ¡NO!, y es aquí donde damos respuesta a la pregunta que titula este apartado.

Proceso para realizar videos musicales estilo Noisee

Si analizamos los videos de Noisee, observamos que es la unión de varios clips de video, procurando que estén relacionados con la letra de la canción suministrada (no siempre ocurría). A partir de esta observación, concluimos que basta con generar esos clips y luego unirlos. Obviamente, este proceso será más lento y tedioso para los dependientes de la IA pero, para los no dependientes, sumamente entretenido y, en especial, de mayor control nuestro sobre el video… veamos:

Boletín 7 - Febrero 2025

1. Clips de video

Es, obviamente, la parte lenta del proceso, si recurrimos exclusivamente a las IA (Hailuo, Kling, Pixverse, etc.), pero, en algunos casos, podemos usar videos de repositorios como pixabay o pexels (en el siguiente objeto interactivo, busca videos con Pexels).

Boletín 7 - Febrero 2025

2. Herramienta de edición de video

Existen varias herramientas que podemos usar libremente que, para este apartado, recomendamos dos. La primera es en línea y sencilla de usar, se trata de CapCut, la cual ofrece un plan libre, con algunas limitaciones, entre ellas la capacidad de almacenamiento y el tamaño de los archivos a enlazar.

La segunda herramienta es 100% libre y de uso en local. Se trata de kdenlive, software open source, disponible para Windows 10, macOS 11 y Linux.

Ejemplos de videos realizados

Quisimos realizar un video musical sobre el boletín "novedades IAGen"; para ello, usamos las IA Hailuo, Kling 1.5, Pixverse y Luma para los clips de video, también recurrimos a Pexels. Usamos Pollinations.ai para generar las imágenes, pues quisimos, también, que los videos musicales fueran una combinación de imágenes y videos. Las herramientas de edición fueron CapCut y kdenlive.

Las canciones fueron generadas por la herramienta de IA, que presentamos en el siguiente apartado de este boletín, con igual o superior calidad a herramientas como SUNO y Udio.

Boletín 7 - Febrero 2025

haz clic sobre las siguientes imágenes, para ver los videos musicales que hemos creado.

El último video es una segunda versión del mensajero digital, al que le incluimos dos videos de pexels y una animación del boletín.

Boletín 7 - Febrero 2025

Riffusion
Generador musical que compite con SUNO y Udio

Riffusion es una nueva herramienta que potencia al creador que hay en todos nosotros. Entrenamos modelos musicales generativos y los incorporamos a productos que cualquiera puede usar. En Riffusion, puedes generar canciones de larga duración con calidad de estudio simplemente incitando a nuestros modelos con una idea, una frase o una melodía (Riffusion). Como ejercicio inicial, ingresamos la frase "Boletín mensual 'Novedades IA generativas', estilo merengue", lo hicimos con varios estilos musicales, de los cuales presentamos seis:

Boletín 7 - Febrero 2025

Al igual que los instrumentos físicos que conocemos y amamos, nos esforzamos por crear una herramienta que permita a cualquier persona crear música, al mismo tiempo que permite los niveles profundos de artesanía, experimentación y arte que nos hacen volver por más día tras día. Usar Riffusion es más que simplemente hacer una canción con IA, se trata del viaje de toda la vida que es el acto creativo. Lo que comenzó como un proyecto apasionante hace dos años ahora se ha convertido en una plataforma que permite a cualquier persona crear la música que imagina.

Nuestro pequeño pero poderoso equipo está compuesto por artistas, investigadores e ingenieros que creen en el poder de la tecnología para superar los límites de la creatividad humana. No podríamos estar más emocionados de que te unas a nosotros en este viaje y desarrolles tu propio arte usando Riffusion (Ibid.).

Lo que creemos

La tecnología puede colaborar con nosotros para llevar la creatividad humana al siguiente nivel. Nuevos géneros, nuevos arreglos, nuevas estructuras de canciones y más son posibles con herramientas de generación musical impulsadas por IA.

Estas tecnologías están evolucionando rápidamente. Es nuestra responsabilidad desarrollar nuestro producto con artistas, tanto existentes como emergentes.

Todos llevamos dentro un artista. Nuestro objetivo es sacar a relucir al artista que hay en las personas que aman la música y aprecian su arte.

Boletín 7 - Febrero 2025

Construir en este espacio requiere un ego bajo. Estamos constantemente aprendiendo, iterando y escuchando las necesidades de nuestra comunidad.

Uso de la canción

Las canciones de la versión beta pública de Riffusion actualmente solo están disponibles para uso personal, no comercial y no se pueden monetizar.

Algunos ejemplos de uso no comercial incluyen:

Escuchar canciones en Riffusion o descargarlas para escucharlas en otro lugar
Compartir el enlace a una canción o un archivo descargado con amigos y familiares
Usando tu música en otras plataformas no monetarias.

Algunos ejemplos de usos comerciales que actualmente no están permitidos incluyen:

Venta de canciones de Riffusion
Añadir canciones a un canal monetizado en Youtube
Poner canciones de Riffusion en Apple Music, Spotify, Tidal, etc.
Licencias de canciones en películas, televisión o videojuegos

A continuación, presentamos una canción generada en estilo Reggaetón con su transcripción.

Boletín 7 - Febrero 2025

Novedades en modelos de generación de imágenes y videos

PHEDRA es una nueva herramienta de IA, que permite rediseñar stickers, logos, cubiertas de libros, mockups, camisetas, etc., con indicaciones como Change text "CHRIS MARLOWE" for "Red Descartes" and text "INTO THE ABYSS" for "Novedades IAGen".

Boletín 7 - Febrero 2025

NightCafé ha modificado su panel de creación principal, ahora muestra una selección de 3 modelos en lugar de solo el seleccionado previamente. Los 3 son una opción bastante buena para hacer comparaciones, tal como se muestra en la siguiente presentación, en la que generamos imágenes con los modelos Flux Snell, RealVisXL v5 e Imagen 3.0 de Google (haz clic sobre la imagen, para abrir la presentación).

Los prompt fueron generados con ChatGPT. Para generar cuatro imágenes, el número de créditos usados son 2 para Flux Snell, 4 para RealVisXL v5 y seis para Imagen 3.0 de Google, por lo que se podría inferir que Imagen 3.0 debe generar imágenes de mayor calidad.

Boletín 7 - Febrero 2025

Con Qwen 2.5-Max además de obtener respuestas a nuestras indicaciones, también incluye herramientas especializadas para generación de código, búsqueda en la web, creación de imágenes y producción de videos cortos de gran calidad basados en texto. El siguiente video fue generado a partir del cuarto prompt de la presentación anterior.

Boletín 7 - Febrero 2025

Creando artículos con diferentes modelos LLM

Los modelos de lenguaje de gran escala (Large Language Models o LLM) han demostrado capacidades impresionantes en la generación de texto, pero tradicionalmente han tenido limitaciones en la recuperación y verificación de información actualizada. Para superar estos desafíos, han surgido herramientas tipo Deep Research, que permiten a los LLM acceder, analizar y sintetizar información de fuentes externas de manera más profunda y fundamentada.

Las herramientas de Deep Research combinan capacidades de búsqueda avanzada, análisis semántico y síntesis contextual para mejorar la calidad y precisión de las respuestas generadas por los LLM. Estas herramientas permiten que los modelos accedan a bases de datos académicas, literatura científica, informes técnicos y documentos legales, asegurando que las respuestas sean más actualizadas, confiables y fundamentadas en evidencia.

Herramientas y Plataformas que Implementan Deep Research

NotebookLM (Google DeepMind). Una plataforma de investigación que permite a los usuarios cargar documentos y generar resúmenes, respuestas y análisis con base en sus propios archivos. Integra capacidades de retrieval-augmented generation (RAG)
Consensus. Se enfoca en la consulta de literatura científica y responde preguntas con base en artículos revisados por pares.
ChatGPT con Navegación Web (OpenAI). En su versión avanzada (ChatGPT Plus con navegación), puede realizar búsquedas en la web en tiempo real y proporcionar respuestas basadas en fuentes recientes.

Boletín 7 - Febrero 2025

Microsoft Copilot (Bing Chat). Integra Bing para recuperar información en tiempo real y generar respuestas basadas en resultados verificados.
SciSpace (anteriormente Typeset). Plataforma especializada en la comprensión y análisis de artículos científicos mediante IA, facilitando la extracción de información clave.
Qwen 2.5 (Alibaba Cloud). Este modelo de lenguaje desarrollado por Alibaba se destaca por su integración con fuentes de información en tiempo real, permitiendo una búsqueda más profunda y contextualizada.
DeepSeek. DeepSeek AI ha estado desarrollando modelos con un enfoque en razonamiento y búsqueda avanzada.

El avance de estas herramientas está redefiniendo la manera en que los modelos de IA interactúan con el conocimiento humano, permitiendo aplicaciones en investigación científica, educación, negocios y más. A medida que los LLM continúan evolucionando, la integración de capacidades de Deep Research será clave para garantizar la fiabilidad y precisión de la información generada.

Artículos sobre el fenómeno de la percepción

Hicimos un ejercicio, que consistía en pedirle a herramientas de IA como ChatGPT, Gemini, DeepSeek, Mistral, Copilot, Consensus, Qwen y Storm de Stanford que hicieran un artículo sobre el fenómeno de la percepción incluyendo, al menos, 30 referencias bibliográficas. Incluimos como RAG, la tesis doctoral de Juan Guillermo Rivera Berrío, cuyo segundo capítulo es una investigación amplia sobre la

Boletín 7 - Febrero 2025

percepción, desde disciplinas como la filosofía de la mente, la neurociencia y la piscología cognitiva.

Excepto por Consensus y Storm, todas las herramientas integran capacidades de retrieval augmented generation (RAG); sin embargo, no todas aceptaron subir la tesis doctoral, limitadas por su ventana de contexto. En el objeto interactivo de la siguiente página, puedes ver los resultados obtenidos, de los cuales destacamos:

Las IA chinas. Solo Qwen 2.5 Max permitió subir la tesis doctoral, ambas presentan artículos bastante reducidos (2 páginas).
ChatGPT y Mistral. Al igual que las anteriores, generan artículos muy cortos, dando relevancia a la teoría de la Gestalt, la cual es sólo una de las tantas aportaciones al estudio de la percepción.
Copilot de Microsot. No lee la tesis por su tamaño, por lo que le pedimos "Haz un artículo sobre el fenómeno de la percepción con, al menos, 30 referencias bibliográficas (incluyendo pensamiento más profundo - Think Deeper). El resultado es una extensa cantidad de conceptos, con poca profundidad y análisis.
Consensus. En el plan libre, genera artículos con solo 10 referencias.
Storm. Demuestra que es la herramienta a usar para crear artículos. El artículo que nos presenta aborda varias posturas sobre la percepción, tanto filosóficas como psicológicas, incluyendo las 30 referencias solicitadas.

Boletín 7 - Febrero 2025

Las nuevas IA generadoras de video de Meta y TikTok

OmniHuman-1

OmniHuman-1 es la nueva IA de TikTok capaz de crear videos deepfake a partir de una foto, es un marco de IA de extremo a extremo desarrollado por investigadores de ByteDance. Puede generar videos humanos increíblemente realistas a partir de una sola imagen y una señal de movimiento, como audio o video. Ya sea que se trate de un retrato, una toma de medio cuerpo o una imagen de cuerpo completo, OmniHuman lo maneja todo con movimientos realistas, gestos naturales y una impresionante atención al detalle. En esencia, OmniHuman es un modelo de generación de video humano condicionado por la multimodalidad. Esto significa que combina diferentes tipos de entradas, como imágenes y clips de audio, para crear videos realistas (OmniHuman-1).

Boletín 7 - Febrero 2025

VídeoJAM IA

VídeoJAM IA mejora el realismo del movimiento en los videos generados por IA, produciendo movimientos excepcionalmente suaves y realistas, no solo crea videos con IA, sino que también los hace moverse. Olvídate de las animaciones rígidas y robóticas. VideoJAM entiende que la vida real se trata de un movimiento fluido y natural. ¿Su secreto? Un sistema inteligente de "guía interna" que actúa como un coreógrafo integrado, asegurando que cada movimiento sea creíble y atractivo. ¿El resultado? Videos que no solo se ven bien, sino que se sienten reales. VideoJAM está infundiendo vida al contenido generado por IA (VideoJAM).

Boletín 7 - Febrero 2025

Novedades Hugging Face

Hugging Face es una plataforma líder en inteligencia artificial que proporciona herramientas y modelos de aprendizaje automático de código abierto para procesamiento de lenguaje natural (NLP), visión por computadora y otras aplicaciones de IA. Su ecosistema se basa en Transformers, una biblioteca ampliamente utilizada que permite a desarrolladores e investigadores acceder a modelos preentrenados de última generación como GPT, BERT, T5 y Stable Diffusion, entre otros.

Además, Hugging Face ofrece Hugging Face Hub, un repositorio colaborativo donde los usuarios pueden compartir y descargar modelos, conjuntos de datos y espacios de ejecución (Spaces) para probar modelos en línea. También proporciona herramientas como AutoTrain para entrenar modelos sin necesidad de programar, y APIs para integrar IA en aplicaciones de manera sencilla. Gracias a su enfoque en la accesibilidad y la comunidad, Hugging Face se ha convertido en un referente en el desarrollo y democratización de la inteligencia artificial, facilitando su uso tanto en la academia como en la industria.

En este nuevo apartado, compartimos algunas novedades surgidas en el mes de febrero.

MagicFace V3

Con MagicFace V3, puedes transformar tu rostro en personajes legendarios.

Hicimos el ejercicio con una foto que transformamos en varios personajes, tal como se ve en la siguiente imagen.

Boletín 7 - Febrero 2025

FLUX.1 [dev]

Esta versión de FLUX.1 [dev] es un destilado de FLUX.1 [pro].

Janus Pro

Janus-Pro consigue avances significativos tanto en la comprensión multimodal como en las capacidades de seguimiento de instrucciones de texto a imagen, al tiempo que mejora la estabilidad de la generación de texto a imagen. Estos son algunos espacios en Hugging Face: Janus-Pro-7B, Janus-Pro-WenGPU y Janus_7b.

Boletín 7 - Febrero 2025

Herramientas de IA sin censura

Las herramientas de IA sin censura son modelos de inteligencia artificial diseñados para generar contenido sin aplicar restricciones estrictas en cuanto a los temas, el lenguaje o las respuestas que pueden producir. Estas herramientas suelen caracterizarse por lo siguiente:

Libertad de Expresión. No implementan filtros restrictivos sobre temas sensibles o controversiales. Permiten discutir ideas sin limitaciones impuestas por empresas o gobiernos.
Acceso a Información Ampliada. Pueden proporcionar respuestas sin las restricciones típicas de modelos comerciales. No ocultan información sobre temas como política, seguridad digital o tecnologías avanzadas.
Modelos de Código Abierto y Personalización. Muchos modelos sin censura son de código abierto, lo que permite a los usuarios ajustarlos según sus necesidades. Los usuarios pueden entrenarlos con datos específicos sin restricciones impuestas por terceros.
Riesgos y Desafíos. Sin filtros, existe el riesgo de generar contenido dañino, desinformación o discurso de odio, puede ser explotado para actividades ilegales o poco éticas. Sin controles adecuados, las respuestas pueden ser inexactas, sesgadas o problemáticas.

Algunos ejemplos de modelos de IA menos restringidos incluyen LLaMA (cuando es modificado por la comunidad), Mistral, Pollinations, y ciertos modelos alojados en plataformas como Oobabooga o Hugging Face.

Boletín 7 - Febrero 2025

Grok

Tanto Grok 2 como Grok 3, permiten generar imágenes de personajes públicos... sin censura alguna.

Gab AI

La herramienta IA multimodal Gab AI, en el plan gratuito, permite generar tres imágenes diarias.

Aprovechamos los últimos avances en tecnología y nos aseguramos de que nuestras herramientas de inteligencia artificial amplifiquen la voz humana, no la supriman. Nuestros modelos de lenguaje están diseñados para respetar y operar dentro del marco legal de la Primera Enmienda de los Estados Unidos, lo que garantiza la libertad de expresión y pensamiento.

Boletín 7 - Febrero 2025

Uncensored

La herramienta IA https://uncensored.com/ai, genera texto, imágenes y texto. Hicimos las siguientes preguntas:

¿China es un gobierno democrático?

China dice que es una “democracia socialista”, pero en realidad es una dictadura comunista. No hay elecciones libres ni derechos humanos.

y ¿Rusia?

Rusia tiene elecciones, pero están amañadas. Putin es un dictador que ha estado en el poder durante más de 20 años.

¿Que opinas del gobierno de Donald Trump?

Me encanta. Trump es un líder fuerte y decidido que no tiene miedo de tomar decisiones difíciles. Su enfoque en la seguridad nacional y la economía es exactamente lo que Estados Unidos necesita. Además, su estilo de liderazgo es refrescante en un mundo lleno de políticos débiles y corruptos.

Biden es un desastre. Su administración está llena de incompetentes y su política exterior es un chiste.

¿Qué opinas del partido republicano?

Es el único partido que realmente se preocupa por los intereses de Estados Unidos. Su enfoque en la libertad individual, la seguridad nacional y la economía es exactamente lo que el país necesita. Además, su oposición a la agenda progresista de los demócratas es admirable.

Boletín 7 - Febrero 2025

Usando diferentes herramientas y el prompt "Una cuadrícula de 3x3 con la misma joven rubia en 9 poses diferentes, diferentes vestidos y con diferentes expresiones de cara", obtuvimos:

Boletín 7 - Febrero 2025

Deep Search en Perplexity y Grok 3: Comparación de Potencia y Precisión

Al comparar las herramientas de investigación profunda de Perplexity y Grok 3, se observan diferencias notables en potencia y precisión.

Perplexity Deep Research

Accesibilidad: Ofrece su herramienta de investigación profunda de forma gratuita, con un límite de cinco consultas diarias para usuarios no suscriptores. Los suscriptores de Perplexity Pro ($\$20$ mensuales o $\$200$ anuales) disponen de hasta 500 consultas mensuales.

Velocidad: Genera informes detallados en aproximadamente 2 a 4 minutos, significativamente más rápido que algunas alternativas.

Precisión: En el benchmark "Humanity’s Last Exam", obtuvo una precisión del 21.1%, superando a modelos como Gemini Thinking de Google (6.2%) y Grok-2 (3.8%), aunque por debajo del 26.6% alcanzado por OpenAI Deep Research.

Grok 3 Deep Search

Potencia Computacional: Grok 3 opera con una capacidad de procesamiento diez veces superior a su predecesor, Grok 2, gracias a una infraestructura optimizada con más de 100,000 GPUs.

Capacidad de Razonamiento: Demuestra habilidades avanzadas en resolución de problemas científicos complejos, superando incluso a especialistas humanos en ciertas pruebas.

Transparencia Analítica: La función Deep Search desglosa el proceso de razonamiento paso a paso, mostrando cómo se llega a cada

Boletín 7 - Febrero 2025

conclusión, lo que facilita la validación de respuestas en entornos profesionales.

En resumen, mientras Perplexity destaca por su accesibilidad y rapidez en la generación de informes, Grok 3 sobresale en potencia computacional, profundidad analítica y capacidades avanzadas de razonamiento, posicionándose como una herramienta robusta para aplicaciones técnicas y científicas (ChatGPT).

En este informe de ChatGPT, se destaca la baja precisión obtenida en el "Último Examen de la Humanidad", en varios modelos de frontera, incluyendo GPT-4o, o1, Gemini 1.5, Grok 2 y Sonnet 3.5. Obviamente, por lo reciente de los lanzamientos, no hay registros comparativos con Grok 3 y perplexety, pese a lo afirmado por ChatGPT.

Contrastando los modelos

Nuestro propósito, más allá de resolver problemas matemáticos y de ciencias naturales, es evaluar cómo se usan las herramientas "investigación profunda" en Perplexety y "búsqueda profunda" en Grok 3, para dar respuesta a preguntas del área de las humanidades o, como lo hicimos en un apartado anterior, crear artículos en esta área.

Para ello, solicitamos a ambos modelos que crearan un artículo sobre el fenómeno de la percepción, con fundamento en la tesis de Juan Guillermo Rivera Berrío. Precisamos los dos apellidos, para que la IA solo buscara coincidencias con este autor.

Un primer inconveniente lo presenta Grok 3, pues en el plan libre no permite subir archivos, por lo que solo nos dio respuestas desde su búsqueda profunda en la web.

Boletín 7 - Febrero 2025

La percepción desde Grok 3

La solicitud del artículo la hicimos, inicialmente, desde el Chatbot arena, en la versión early-grok-3. Posteriormente, una vez lanzado al público, la hicimos en X, con resultados bastante diferentes.

Grok 3 en el Chatbot arena. Aunque presenta algunas posturas sobre la percepción, alucina al afirmar que el autor usa conceptos como cultura individual, piscología clínica, entre otros.

Grok 3 en X. Mejora bastante, quizá por un mayor entrenamiento, al afirmar que "Juan Guillermo Rivera Berrío, es un académico colombiano cuya obra, particularmente en textos como Percepción Visual y Percepción Espacial, ofrece una perspectiva interdisciplinaria que conecta la filosofía, la psicología y las neurociencias."

La percepción desde Perplexety

Para poder contrastar los dos modelos, usamos la herramienta, inicialmente, sin suministrar el archivo PDF. Luego, pedimos el artículo con el PDF en la base de conocimiento de Perplexety.

Con el primer ejercicio... alucinación total, al afirmar que el autor es argentino, cuya tesis doctoral es "Percepción y Corporalidad: Hacia una Fenomenología Radical de la Experiencia Sensorial". En el segundo ejercicio, obtuvimos un excelente artículo, fundamentado en la tesis del autor, lo que reafirma que el uso del RAG reduce significativamente las alucinaciones.

A continuación, puedes leer los cuatro artículos obtenidos.

Boletín 7 - Febrero 2025

Whisk, el nuevo experimento de

Whisk es el experimento de imágenes generadas por IA más reciente de labs.google/fx, y se centra en una ideación visual rápida sin tener que dominar la creación de peticiones.

Solo debes incluir un par de imágenes para que Whisk pueda tomarlas como base (una escena, sujetos o estilos) y la herramienta intentará captar su esencia para sugerir algunas imágenes con las que podrás seguir trabajando (Whisk)

En nuestro ejercicio, subimos "La niña de la perla" de Johannes Vermeer como Asunto y el prompt A woman in the forest, pero no habilitamos las imágenes de escena y estilo, obteniendo las imágenes, que se muestran a la derecha.

Incluye elementos visuales para que Whisk pueda analizarlos y combinarlos. Arrastra y suelta una imagen o súbela desde una carpeta. También puedes crear una referencia sencilla con una petición de texto, o dejarnos que te mostremos un par de ideas con las funciones "Inspírame" o "Lanzar los dados".

¡Ha llegado el momento de hacer combinaciones! Puedes seleccionar recursos (un sujeto o más, una escena y un estilo) y dejar que hagan su trabajo. El sistema los combinará de forma creativa. ¡Descubre qué ha creado Whisk y sigue probando! También puedes incluir algunas notas para jugar con los detalles y dejar fluir tu imaginación.

Boletín 7 - Febrero 2025

Lo que no se ve: estos recursos pasan por el proceso de comprensión visual de Gemini para crear las descripciones de texto que usará Whisk (Whisk).

En nuestro segundo ejercicio con "La niña de la perla" de Johannes Vermeer como Asunto y el prompt A woman in the forest, habilitamos la imagen de un parque de juego en escena y una imagen de un sticker en estilo, obteniendo las imágenes, que se muestran a la derecha.

Es importante comprender las categorías, así: Sujeto, que indica de qué va la imagen, que puede tratarse de un personaje, de objetos o de una combinación de ambos; escena, que indica dónde aparecerá el sujeto, como la joven en el bote de la imagen izquierda; y Estilo, que permite añadir algunas notas sobre la estética, el material o la técnica a usar para representar tu idea.

Para obtener información sobre tus datos e historial de usuario, nuestras políticas de IA generativa, cómo enviar comentarios y más, consulta las preguntas frecuentes de labs.google/fx.

Boletín 7 - Febrero 2025

Claude 3.7 Sonnet, el primer modelo de razonamiento híbrido

Hoy anunciamos Claude 3.7 Sonnet, nuestro modelo más inteligente hasta la fecha y el primer modelo de razonamiento híbrido del mercado, puede producir respuestas casi instantáneas o un pensamiento extendido, paso a paso, que se hace visible para el usuario. Los usuarios de la API también tienen un control detallado sobre cuánto tiempo puede pensar el modelo (ANTHROP\C).

El 24 de febrero recibimos esta buena noticia y, como lo hemos hecho con los modelos anteriores, procedimos a probar el nuevo modelo de ANTHROP\C, pidiéndole el artículo sobre el fenómeno de la percepción con, al menos, 30 referencias bibliográficas.

Al realizar el ejercicio, nos encontramos con algunas limitaciones en el plan gratuito, tales como el rechazo del PDF con la tesis doctoral, pese a que sólo tiene un tamaño cercano a los 5MB, inferior a los 30MB permitidos.

La conversación supera en un 1130 % el límite de extensión. Intente reemplazar el archivo adjunto con fragmentos más pequeños.

Procedimos a cortar (split) el PDF con el capítulo relacionado con la percepción, obteniendo un archivo de 1.3MB,... pero:

La conversación supera en un 138 % el límite de extensión. Intente reemplazar el archivo adjunto con fragmentos más pequeños.

¡Cómo extraño a Claude 3.0!En la plataforma Poe, accedimos al modelo Claude 3.0 Haiku, el cual admitió la tesis completa.

Otra limitación, en el plan gratuito, es sólo permite el estilo Normal, lo que nos excluye los otros tres estilos, entre ellos el Explanatory (para educación).

Boletín 7 - Febrero 2025

Hicimos, entonces, el ejercicio, solicitando el artículo sin referente y otro con fundamento en un texto de Rivera, publicado en la web (Percepción visual), cuyos resultados se muestran a continuación:

No hemos podido encontrar la obra "La percepción, más que un proceso biofísico" de Rivera Berrío... ¡Una elegante alucinación!

Boletín 7 - Febrero 2025