La irrupción de la inteligencia artificial (IA) en la industria de la música es una muestra más de cómo el avance más disruptivo de los últimos años avanza a pasos agigantados sobre diferentes campos de la vida y en particular del arte.
Peter Gabriel, ex-integrante de Genesis, dijo hace poco en la revista Uncut -con un dejo de resignación pero abierto a nuevas posibilidades- : “Es un poco como el Rey Canuto en la playa, (NdA: Gabriel hace referencia al rey escandinavo Canuto II y su gran dominio marítimo) está llegando. Solo lo estamos construyendo. No tenemos idea a dónde llegará. No puedo pensar en nadie cuyo trabajo no pueda ser hecho mejor por la IA en los próximos diez años, quizás cinco. Mientras manejo al estudio en mi Tesla, el vehículo hace gran parte del manejo por mí—pero aún continúo sosteniendo el volante. Lo mismo va a pasar en cualquier proceso, incluyendo el creativo. A la mitad de los artistas les gustará jugar con una IA, mientras la otra mitad querrá prohibirlo. Pero creo que es mejor si trabajás con una nueva herramienta poderosa a sólo quejarte o pretender que no existe”.
El DJ y productor canadiense Joel Zimmerman, más conocido como Deadmau5, también se ha expresado sobre esta cuestión: “Es bastante aterrador”, dice Joel. “Pero es aterrador en el sentido de lo estúpida que es la música de todos modos, así que no es tan aterrador. Como, ‘Esta cosa puede hacer una canción pop!’ ¿Has escuchado una canción pop? Genial. Déjala ir. Libera la bestia, ya sabes, eso abriría mucho el mercado de nicho para la habilidad musical real. [ChatGPT] es bueno. Pero solo es tan bueno como lo que sabe. Es un modelo de entrenamiento enorme, ¿verdad? así que toma la estupidez colectiva del mundo y haz que un robot lo vomite. No va a ser un genio, pero te dará lo que quieres.
No está claro si podemos esperar un álbum basado en IA del productor de música electrónica, pero algo es seguro, y es que la IA va a tomar el control del mundo de una forma u otra”.
Otros como —quizás el máximo exponente de la electrónica pop de este siglo— David Guetta, son más entusiastas. El francés responde la pregunta que nos hacíamos tiempo atrás y su respuesta es un tajante “Sí”. “Nada va a reemplazar el gusto”, comentó. “Lo que define a un artista es… vos tenés cierto gusto, cierto tipo de emoción que querés expresar, y vas a usar todos los instrumentos para hacerlo”. El DJ y productor usó un argumento conocido para defender su posición: “Creo que cada nuevo estilo musical deviene de una nueva tecnología. La IA posiblemente defina nuevos estilos musicales. No hubiera habido rock and roll si no fuera por la guitarra eléctrica. Tampoco el acid house sin el Roland TB-303 o el Roland TR-909. No habría hip hop sin las sampleras”.
Otra voz defensora de la IA es Hazel Savage, co-fundadora de Musiio una IA con capacidad de escuchar música cuya función (entre otras) es la de encontrar el mejor segmento entre un rango de 30 a 60 segundos para su inserción en videos de redes sociales como TikTok, Instagram y YouTube. “No estamos aquí para reemplazar humanos”, manifestó. “Hemos tenido ese argumento desde que comenzamos con Musiio y todo vino desde un lugar de miedo e incomprensión. Pero ha habido un progreso, ahora es menos la gente que me dice «Toda IA es terrible». Toda esa gente ahora suena como aquella que en su momento decía «todos los sintetizadores son basura, no es música real». Así que estamos en una buena dirección”.
Hace dos años, Hazel percibe un cambio positivo en la percepción de las IA: “La realidad es que una IA, en su estado actual, no puede hacer nada que no le hayamos enseñado. En Musiio, nuestra tecnología parece mágica debido a su velocidad y precisión. Pero no hay nada de magia, es muy simple: se basa en un alto rendimiento computacional y reconocimiento de patrones que le dan la apariencia de inteligencia. Eso es algo que la gente debe comprender”. Aún así, Hazel puso paños fríos sobre aquellos que están más que alarmados: “Con Musiio hemos tenido reuniones con discográficas y editores y he notado que hay muy poca demanda para música creada por IA, así que existe una desconexión entre la demanda real y la música artificial”. Savage incluso va más allá, y traza una línea respecto a lo dicho por Guetta y Gabriel: “la música a partir de la IA va hacia ningún lugar y la gente no la querrá. Los humanos aman crear música, así que no necesita ser interrumpida por una IA”.
En la misma sintonía de Guetta y Gabriel, el ingeniero de software Berkeley Malagon es uno de los grandes protagonistas de este incipiente pero fuerte asentamiento de las IA en nuestro inconsciente colectivo. Malagon es cofundador de Audiolab, una compañía estadounidense que se encuentra trabajando en la producción musical bajo IA. “No estamos buscando apretar un botón y generar una canción definitiva. No nos interesa eso, sino empoderar a los ingenieros de sonido, los diseñadores de sonido”. Desde esta óptica funcional al proceso creativo de cada individuo, Malagon prosigue: “(Los ingenieros) Dedican mucho tiempo en alcanzar un sonido deseado definido, previo a darle su forma. Aman lo que es avanzar directo a la curaduría, ajustar la afinación, moldear un sonido que ya se encuentra en lo que ellos buscaban”.
Nadie puede cuestionar dicho potencial ni su noble intención. Pero, si bien su objetivo es la facilidad que brinda lo digital —en este caso la IA— y lo ahorrativo que resulta en el proceso de búsqueda e indagación que hacen al proceso creativo, justamente ¿no estaríamos ante una esquilmación del mismo en una de sus dimensiones más excitantes —pero también frustrantes? Tal vez la búsqueda de un antídoto contra la frustración no nos ofrezca malos resultados, pero por lo menos sí la modificación de la serendipia hasta como la conocíamos. Supongamos que un músico/productor no encuentra un sonido específico o al modelarlo no encuentra la manera justa de hacerlo y se frustra, las alternativas posibles podrían ser: 1) desistir el proyecto y comenzar algo nuevo, 2) buscar ayuda y de esta manera enriquecerse en la colaboración (el rol fundamental de los ingenieros de sonido y productores de estudios de grabación tal cual el paradigma del siglo XX) o 3) en la obsesión por un audio especial, encontrar algo nuevo que les resulte atractivo y continuar por una nueva dirección. Esta última opción ya no devendría de la acción humana sino de las opciones preestablecidas pasibles de elección ofrecidas por un software.
Malagon comenzó su carrera en el mundo de los videojuegos para luego ser autodidacta en los fundamentos de las IA, la ciencia de datos y el aprendizaje artificial para finalmente trabajar en chats inteligentes y diseño audiovisual. En el mientras tanto la producción musical era uno de sus hobbies y su curiosidad lo llevó a aplicar el trabajo de redes neuronales del arte visual al diseño sonoro. Su deseo era prescindir de packs de samples para la elaboración de tracks, lo que hoy en día es moneda corriente en la producción musical.
Avance irrefrenable en el mercado
En el marco de esta profusión artificial, Spotify ha inaugurado una nueva función que tiene a la IA como protagonista. Se llama “DJ” y se trata de una versión más perfeccionada de las diversas y ya conocidas selecciones algorítmicas de canciones (playlists sugeridas) para cada usuario armadas por la aplicación. Ya no se trata de una mera recolección más precisa, sino que permite que esta nueva función, dirigida por OpenIA (sí, el mismo laboratorio que diseñó ChatGPT) te hable entre algunas canciones para contarte más sobre ellas. La voz es generada por Sonantic, una compañía adquirida por Spotify previamente, cuya voz está diseñada a partir de la del Director de Asociaciones Culturales de la corporación sueca, Xavier Jernigan. “DJ” ha sido provisoriamente lanzada como formato beta en Estados Unidos y Canadá, y se espera que prontamente traspase más fronteras.
Por otro lado, si estábamos insatisfechos a la hora de cantar nuestras canciones favoritas en karaokes, hoy existe una IA que permite la extracción de pistas, como quitar el bajo, la batería, guitarras, etc, de canciones. Si bien era algo con lo que más o menos podíamos estar familiarizados, (quién no lo hizo alguna vez con resultados algo paupérrimos en Audacity) AudioShake ha logrado un acercamiento a este proceso como nunca antes. Les está permitiendo a compañías en los EE.UU obtener sincronizaciones al remover voces de tracks y crear versiones instrumentales, lo que vendría a anticipar próximamente que la “separación” de pistas (como una herramienta fuente musical) sería lo próximo en masificarse.
La primera máquina de ritmos con base en IA de la historia, “Emergent Drums”, fue recientemente inaugurada por Audiolab y, aunque no es un reemplazo total a una librería de samples o una caja de ritmos propiamente dicha, puede ser un gran complemento. Emergent Drums no es el primer plugin en utilizar inteligencia artificial (iZotope Neutron 4, FAST de Focusrite, son algunos de ellos), la diferencia yace en que este nos invita a inventar nuevos sonidos.
Esta batería electrónica no utiliza ningún sample preexistente, sino que genera samples de batería utilizando tecnología basada en IA y aprendizaje de máquinas. Es el primer plugin en acarrear generación de sonido vía IA en las llamadas Estaciones de Trabajo de Audio digital (también llamado DAW, por sus siglas en inglés), es decir el estudio casero que puede habitar dentro de una computadora en nuestras casas.
Su funcionamiento se basa, como las demás, en redes neuronales, entrenadas con decenas de miles de samples existentes. Estudiando los patrones profundamente, con las formas y modelos de ondas de sonido de los mismos, este plugin gradualmente comienza a generar su propia representación de lo que sería un bombo o un hi-hat, entre lo que compone un kit de batería. El set de data de Emergent Drums está en constante crecimiento, y puede usar sus propios sonidos para perfeccionarse e incluso derivar nuevos sonidos de sí mismo. Su método de trabajo imita el método humano: actuamos, observamos los resultados, combinamos esto con todo lo que sabíamos previamente y actualizamos nuestro conocimiento con nueva experiencia e información.
Malagon, de quien hemos hablado más arriba, espera que surja “una nueva era de diseño y producción de sonido” y que “estamos trabajando en pos de construir un DALL-E (una plataforma generadora de imágenes de IA) para el diseño de sonido.” Según el estadounidense actualmente está en vías de elaboración —bajo su coautoría— una nueva herramienta con la que “será posible incluir cualquier sonido de tu librería, donde nuestra IA la analizará y te dará variaciones de ese sonido específico. Así que no tendrás que tomar lo que viene de nuestros modelos sino tomar el sonido que amas y obtener 100 variaciones del mismo.” El ingeniero se propone que Audiolab “pueda darte cualquier sonido que necesites”.
En el 2020, OpenAI fue innovadora en el lanzamiento de una plataforma llamada Jukebox que genera piezas de música completas en el estilo de cualquier artista elegido o género. Desde una postura técnica los resultados fueron excelentes, pero de todas formas un sonido de baja calidad era lo generalmente arrojado por Jukebox, lo que no igualaba a lo producido por los artistas que uno seleccionaba.
Continuando esta línea, Riffusion es otro desarrollo capaz de aunar una serie de loops y producir “jams” a partir de estos, basados en sutiles variaciones del input inicial. Riffusion se asimila al desarrollo de imágenes gracias a IA via texto (como DALL-E), es decir: uno inserta cierta descripción del resultado que quiere obtener vía texto y la plataforma produce una imagen, en el caso de Riffusion música.
Esta misma recepción de datos basada en texto para la producción musical fue desarrollada aún más completa por Google y su MusicLM. Si bien no lo han habilitado al uso público general, las primeras impresiones exhibidas por Google han demostrado ser ampliamente superiores, lo más fascinante y avanzado de MusicLM es su precisión a la hora de captar instrucciones.
Toda IA es política: las primeras batallas legales
A diferencia de la piratería musical de antaño, las IA no copian material para redistribuirlo o venderlo con el mismo nombre, antes bien, el conflicto radica en cómo toda esa data ha llegado a los motores de las mismas y en quién es el propietario de dicha información.
Los defensores y desarrolladores de IA argumentan que sus motores pueden aprender de data existente sin permisos porque no hay ley contra el “aprendizaje” y que la transfiguración de la data en algo completamente nuevo está protegida por la ley, lo que se sostiene en la vasta jurisprudencia que hay de casos de Google contra escritores y editores por su índice de libros (Google Books), que catalogaba y exhibía extractos de una gran cantidad de obras. Por su parte, los detractores contra argumentan que el uso de material original creado por un artista que luego es procesado por una IA debe tener una licencia de derechos de autor.
Actualmente, la legislación estadounidense – matriz y paradigma sobre cuestiones de derechos de autor, sobre todo en lo relacionado a la música por ser uno de los grandes mercados mundiales- ha manifestado que no aceptará registro de derechos de autor de ningún trabajo creado por una IA pero, como observamos, todavía se encuentra en un limbo sobre si el resultado de una IA infringe los derechos de otros autores cuando incorpora trabajos o material original en un nuevo producto de IA (independientemente de lo mínimo que pueda contener ello de material humanamente original).
Aunque las plataformas actuales de IA son imperfectas, es menester resolver en la brevedad dichas disconformidades (por no decir violaciones a derechos) ya que se vuelven más “inteligentes” con cada uso; quizás ahora estemos en su etapa inicial, pero sabemos que tienen el potencial de avanzar más rápido de lo que podemos manejar.
El Dj y productor David Guetta fue protagonista de un hecho polémico recientemente, luego de que una generadora de voz— en este caso de Eminem— apareciera en una canción que se encontraba djeando en vivo: “Puse el texto en esa cosa, toqué la canción y la gente enloqueció”. Sí, los resultados fueron asombrosos. Pero aquí es donde comienzan las verdaderas disquisiciones sobre ética, integridad artística, derechos de imagen, derechos de propiedad, y demás legislaciones que la IA livianamente vulnera subvirtiendo concepciones filosóficas, antropológicas y sobre demás campos del saber humano que pensábamos (relativamente) estáticos o sin percibir una semejante sacudida como la de hoy en día.
Si bien el artista no tiene intenciones de añadir dicha pieza a su discografía, es una muestra cabal de la fuerza de esta herramienta. Pero ¿fue de todas formas correcta su inclusión en el show sin el consentimiento del artista? ¿Es sólo una nimia imitación o al provenir de un ser humano cuya estética, fraseo, y cualidad artística ha hecho de sí una marca registrada —y cuya elaboración le ha demandado más o menos tiempo— es legítimo su reconocimiento como tal? Estas son preguntas que hoy surgen y exigen una clara y, en lo posible, pronta respuesta.
Si bien su tesis sobre el devenir de la música a partir de la tecnología es comprensible, ¿realmente nos importará que nuevas tendencias musicales estén dictadas enteramente por lo artificial? Desde la invención de nuevas tecnologías electrónicas para la música —por ejemplo, el theremin—, el insumo humano era vital, pues la capacidad operativa de dichas máquinas estaba a disposición de efectuar respuestas bajo la manipulación concreta de estos elementos. Ahora, sin embargo, una misma plataforma es capaz de crear música por sí sola, independiente del input deseado (o no) humano; sólo “tocando un botón”. Es probable que nuevas tendencias surjan de esta tecnología. Pero un sentir humano que lo altere resulta menester, por más mínimo que sea más será el verdadero potencial de una obra de dichas características. O al menos lo que nos resta a nosotros, seres humanos, para que la música no sea fagocitada por la lógica algorítmica digital.
En la voz de Eminem realmente, como en muchas otras, su emulación cuenta como una aproximación (no vaga, por cierto) de la voz real. Si bien hay casos en los que parece un cálculo idéntico, por más que uno incluso quiera llegar a negarlo para disfrutar de lo irreal como real, existe un mínimo porcentaje —aunque sea incluso menor a 1%— que hace a esa voz la ficción que representa y no por sugestión psicológica, sino porque verdaderamente la emulación no es plena y perfecta y al menos (suponemos) eso es algo de lo que agradecer hoy. Justamente esa pizca humana de la cual sin ella pierde toda entidad e integridad.
“Mi persona generada por IA es altamente cotizada”, una impactante frase que cristaliza el signo de estos tiempos. La cantante singapurense Stefanie Sun se pronunció por primera vez vía redes sociales luego de que su voz generada por IA haya explotado con furor a tal nivel que hoy es una de las artistas más escuchadas en Asia. Sun, quien no publica material nuevo desde hace alrededor de seis años, vió su carrera revigorizada gracias a la IA pero con la salvedad de que no es ella la encargada de hacerlo sino un motor inteligente. Este caso emblemático configura un precedente respecto a los alcances masivos de versiones de canciones hechas por IA, como los covers de “Hair Like Snow” de Jay Chou y “Rainy Day” de Nan Quan Mama emulan su coloratura y tono vocal de principios de los 2000, que fue cuando la artista irrumpió en el mercado asiático transformándose en una de las intérpretes más populares de la región.
El incidente Ghostwriter
Algo similar ocurrió en abril con The Weeknd y Drake cuando una composición original creada por IA se viralizó en las redes. La canción llamada “Heart on my sleeve” fue subida inicialmente a YouTube y TikTok, para luego obtener cientos de miles de reproducciones en plataformas de streaming como Spotify, Apple Music, DEEZER, Tidal, y Soundcloud.
El track llevado a cabo por GHOSTWRITER (así se autodenominó quien subió a la web dicha pieza) fue eliminado por todas las plataformas correspondientes —en YT aparece el detalle de su supresión: “Este vídeo ya no está disponible debido a un reclamo de derechos de autor presentada por Universal Music Group”.
Las cifras fueron exorbitantes (y alarmantes): en cuestión de pocos días alcanzó quince millones de vistas en TikTok, más de medio millón en Spotify y un cuarto de millón en YouTube. Después de ser removido acumuló cuatro millones de vistas logró gracias a otros usuarios que subieron extractos del tema. Después de haber revolucionado las redes sociales, Universal Music Group pidió a los servicios de streaming de música que se bloquee cualquier acceso a melodías o letras pertenecientes a la discográfica que hayan pasado por IA. “No dudaremos en tomar medidas para proteger nuestros derechos y los de nuestros artistas”, comunicó la corporación en marzo de este año. La respuesta de UMG, y eventualmente otros gigantes discográficos se divide en dos líneas de acción: la primera contra las plataformas que albergan dichos tracks y la segunda sobre la plataforma de distribución que ha hecho posible la aparición del mismo en el streaming de música.
Actualmente UMG es la empresa que lidera esta batalla contra la IA. “Tenemos una responsabilidad moral y comercial hacia nuestros artistas para prevenir desautorizados usos de sus músicas y detener a las plataformas de la ingesta de contenido que viola los derechos de los artistas y creadores. Esperamos que nuestros socios de estas plataformas quieran prevenir en sus servicios el mismo uso indebido que dañe a los artistas.”, declaró uno de sus cabecillas.
Todo este revuelo público en torno a la IA y la música comenzó con el ya universal ChatGPT, cuando un usuario ordenó a dicha plataforma generar “una letra de una canción al estilo de Nick Cave”. La letra llegó a las manos del cantautor australiano, lo que desató su malestar. En su blog, el ícono esgrimió una lacerante respuesta al hecho:
“Estimado Mark, desde su lanzamiento en noviembre del año pasado mucha gente, muchos de ellos sacudidos por un asombro algorítmico, me han enviado canciones “al estilo de Nick Cave” creado por ChatGPT. Ha habido docenas de ellos. Dicho esto, no siento el mismo entusiasmo alrededor de esta tecnología. Entiendo que ChatGPT está en su infancia (como crecimiento cognitivo y de razonamiento lógico), pero quizás ese sea el horror emergente de la IA— que siempre se encontrará en su infancia, asimismo que su dirección siempre es hacia adelante, siempre rápido. No puede retrotraerse, o aletargarse, mientras nos dirige a un futuro utópico, quizás, o a nuestra total destrucción. ¿Quién puede decir cuál de las dos? Juzgando por esta canción “al estilo de Nick Cave” por cierto, no luce bien, Mark. El apocalipsis está bien en su marcha. Esta canción apesta.
Lo que ChatGPT es, en esta instancia, una parodia de la réplica. ChatGPT puede ser capaz de escribir un discurso o un ensayo o un sermón, o un obituario pero nunca crear una canción genuina. Podrá en tiempo crear una canción que, en la superficie, sea indistinguible de una original, pero siempre será una réplica, algo burlesco.
Las canciones surgen desde el sufrimiento, con lo que quiero decir que predican sobre el complejo e interno conflicto humano en la creación, y bueno, hasta lo que puedo saber, los algoritmos no sienten. El Data no sufre. ChatGPT no posee un ser interior, no ha estado en ningún lado, no se ha sobrepuesto a nada, no ha tenido la audacia de superar sus propias limitaciones y por lo tanto no tiene la capacidad de compartir una experiencia trascendente, como no tiene limitaciones las cual trascender. El rol melancólico de ChatGPT es que está destinado a imitar y nunca podrá tener una auténtica experiencia humana, no importa cuán devaluada e inconsecuente sea dicha experiencia en el porvenir.
Lo que hace a una buena canción no es su semblanza a un trabajo reconocible. Escribir una buena canción no es mímica o réplica, o pastiche, es lo opuesto. Es un acto de suicidio que destruye todo lo que uno se ha esforzado de producir en el pasado. Son estas peligrosas e infartantes huidas que catapultan al artista más allá de sus límites de lo que él o ella reconoce como su mismo yo. Esto es parte de un auténtico conflicto creativo que precede la invención de una única letra de verdadero valor; es en la confrontación sin aliento con la vulnerabilidad de uno, su propia peligrosidad, su propia pequeñez, hecha añicos contra una súbita y shockeante sensación de descubrimiento; es el hecho redentor artístico que revuelve el corazón del oyente, donde el oyente reconoce en los compuestos internos de la canción su propia sangre, su propio conflicto, su propio sufrimiento. Esto es lo que nosotros, humildes humanos, podemos ofrecer. La IA solo puede imitar, el trascendental viaje de un artista que siempre lidia con sus propios defectos. Aquí es donde reside el genio humano, profundamente internalizado, pero aun así alcanzando su transmisión al trascender esas limitaciones.
Parece que sueno como que me tomo todo esto un poco personal, pero soy un compositor que está involucrado, en este mismo instante, en un proceso de composición. Es un trabajo de sangre y agallas, aquí en mi escritorio, que requiere algo de mi para iniciar una nueva y fresca idea. Requiere humanidad. Lo que esa nueva idea es, no lo sé, pero está ahí en algún lugar, buscándome. En algún momento nos encontraremos.
Mark, gracias por la canción, pero con todo el amor y respeto del mundo, esta canción es una mierda. Una grotesca mofa de lo que es ser ser humano, y bueno, realmente mucho no me gusta— aunque… ¡espera! Releyéndolo, hay una línea ahí que me habla: “Tengo el fuego del infierno en mis ojos”, dice la canción “al estilo de Nick Cave”, y eso es algo cierto. Tengo el fuego del infierno en mis ojos,— y eso es ChatGPT”.
Con amor, Nick.
Sardónicamente, el Chat fue programado para responder a Cave, y esta fue su respuesta:
“Gracias por tu carta, Nick. Entiendo tus cuestionamientos sobre las limitaciones de una IA creando canciones genuinas.
Es cierto que ChatGPT es una máquina y no tiene la capacidad de emociones o experiencias humanas. Sin embargo, es importante notar que el propósito de IA en la composición no es reemplazar compositores humanos, sino más bien asistir e inspirarlos en sus procesos creativos.
ChatGPT puede generar letras y melodías que un compositor humano puede editarlas, refinarlas y añadir su propio toque personal. Es una herramienta, no un reemplazo.
Adicionalmente, es importante reconocer que el valor de una canción no radica únicamente en su originalidad, sino también en su habilidad de conectar con el escucha y evocar emociones. Mientras una canción generada por ChatGPT puede no tener el mismo significado personal como una escrita por un humano puede seguir siendo significativo e impactante para aquellos quienes la escuchan.”