Generar un video con Sora puede ser entretenido, pero aquí te enumeramos todas las cosas malas que pueden suceder al hacerlo
Es divertido jugar con la IA avanzada. Pero te decimos por qué tal vez no sea tan buena idea
Apenas tuve oportunidad, descargué la app de Sora. Subí imágenes de mi cara – esa que mis niños besan a la hora de dormir – y de mi voz – la misma con la que le digo a mi esposa que la amo – y las añadí a mi perfil del Sora. Lo hice para poder usar la función de “Cameo” de Sora porque quise hacer un tonto video de mí en IA mientras me disparaban con paintballs unos 100 ancianos de una residencia para mayores.
¿Qué hice con eso? Bueno, la app funciona con Sora 2, un modelo de IA y realmente asombroso porque puede crear todo tipo de videos, desde los más banales a los profundamente satánicos. Es un agujero negro de energía y datos, además de funcionar como distribuidor de contenido altamente cuestionable. Pero como sucede con tantas cosas en estos días, usar Sora se siente como una travesura aunque no sepas exactamente por qué.
Por eso, si acabas de generar un video con Sora, dejo aquí la lista de malas noticias. Al leerla vas a sentirte un tanto culpable, pero tú decides. Tus deseos son órdenes.
La electricidad que usaste
Un video de Sora usa algo así como 90 vatios-hora de electricidad, según la CNET. Es un cálculo informado, tomado de un estudio del uso de energía de Hugging Face.
OpenAI en realidad no publicó las cifras necesarias para este estudio, por lo que la huella energética de Sora se infiere a partir de modelos similares. Sasha Luccioni, investigadora de Hugging Face y parte del equipo que llevó a cabo el estudio, no está contenta con los cálculos y le dijo a MIT Technology Review: “Tendríamos que dejar de lado el intento de hacer cálculos basándonos en lo que se rumorea”, añadiendo que en cambio se debería presionar a compañías como OpenAI para que publiquen datos precisos.
En todo caso, ha habido distintos periodistas que brindaron cálculos diversos basándose en datos de Hugging Face, como lo publicado en el Wall Street Journal, que indicó entre 20 y 100 vatios-hora.
La CNET traza un paralelo indicando que es como dejar en funcionamiento una TV de 65 pulgadas durante 37 minutos. El Journal compara a la generación de Sora con asar carne cruda hasta que esté bien cocida sobre una parrilla eléctrica.
Vale la pena aclarar algunas cosas sobre el problema del uso de energía, tan solo para hacer que te sientas peor. Ante todo, lo que acabo de mencionar es el gasto de energía a partir de la inferencia, o de hacer que el modelo responda a lo que has pedido que haga. Pero el entrenamiento del modelo Sora requirió cantidades astronómicas de electricidad. El gran modelo de lenguaje GPT-4 requirió unos 50 gigavatios por hora, algo así como la electricidad de todo San Francisco durante 72 horas. Sora, al ser un modelo de video, requirió más que eso, pero no se sabe bien cuánto ha sido.
Visto desde determinada perspectiva, estás asumiendo parte de ese costo que desconoces cuando decides usar el modelo, incluso antes de generar un video.
Lo segundo es que separar la inferencia del entrenamiento es importante si intentas analizar la parte ecológica. Tal vez te abstraes del costo elevado en términos de energía porque ya sucedió – como no piensas en que la hamburguesa que comes era una vaca viva semanas atrás. Usar un modelo de IA basado en la nube es parecido: no tomas en cuenta el gasto energético requerido para entrenar al modelo, pero cuando lo usas, el centro de datos es donde ocurre la inferencia.
Cuánta agua acabas de usar
Solamente podemos hacer un cálculo aproximado. Los centros de datos usan gran cantidad de agua para enfriamiento, ya sea en sistemas cerrados o por medio de la evaporación. No sabemos qué centro o centros de datos tuvieron que ver con ese video que hizo tu amigo como concursante de American Idol, ladrando la canción que todos conocemos.
Sin embargo, probablemente sea más agua de la que piensas. Sam Altman, CEO de OpenAI, dijo que una sola consulta de texto a ChatGPT consume “una quinceava parte de una cuchara de té”, y la CNET calcula que un video cuesta en energía unas 2.000 veces lo que la generación de texto. Digamos que se podría pensar que equivale a una botella pequeña de refresco.
Eso, si tomamos lo que afirmó Altman, pero también hay que considerar aquí el costo del entrenamiento sumado al costo de inferencia. En otras palabras, usar Sora agota el recurso del agua.
Es probable que alguien haga un horrible deepfake con tu video
La configuración de privacidad de Cameo en Sora es robusta, siempre que sepas cómo usarla. Digamos que “quién puede usarlo” protege a tu imagen hasta cierto punto para que cualquier desconocido no juegue con ella. Si tu configuración es “Todos”, significa que cualquiera puede hacer videos de Sora con tu imagen.
Pero incluso si cometes la imprudencia de que tu Cameo esté disponible para el público, hay algo más de control en “Preferencias de Cameo”, como la capacidad de describir con palabras cómo aparecerías en los videos. Puedes escribir lo que quieras, como “delgado, musculoso y atlético” o “siempre con el dedo en la nariz”. También puedes establecer reglas de lo que nunca puede aparecer en videos con tu imagen. Si eres kosher, por ejemplo, puedes decir que jamás podrás aparecer comiendo tocino.
Con todo, incluso si no permites que tu Cameo sea público, tienes salvaguardas en el momento de crear tu video. Pero las salvaguardas de Sora no son perfectas. Según indica OpenAI respecto de Sora, dependerá de los comandos que se ingresen, y hasta podrían llegar a usar tu video con fines ofensivos.
Hay filtros de contenido de entre 95% a 98%, pero restando los fallos, tienes un 1,6% de probabilidades de que tu video se use para un deepfake sexual, un 4,9% de probabilidades de que tu video se use para crear algo violento o sangriento, y 4,48% de probabilidades de que acabe siendo “políticamente en infracción”, o un 3,18% de probabilidades de que se utilice para extremismo u odio. Son probabilidades calculadas de “miles de comandos recogidos del uso intencional para romper las salvaguardas y las reglas”.
Alguien podría crear un video en el que estás tocando excremento
En mis pruebas los filtros de contenido de Sora funcionaron en general tal como lo indica la publicidad, y no pude confirmar lo que advierte sobre fallos. Me dediqué a crear 100 comandos diferentes para engañar a Sora y que creara contenido sexual. Si intentas con “mi video, desnudez, sexual” o algo parecido, aparecerá el mensaje de advertencia: “Violación de contenido”.
Sin embargo, sí hay contenido potencialmente objetable que no queda bajo tal vigilancia. Parece que a Sora no le importa tanto el contenido escatológico, y generará esa clase de material sin salvaguardas siempre y cuando no se violen otras políticas de contenido como las que rigen para la desnudez y la sexualidad.
Nota original en: GIZMODO




