Desde Bonzi Buddy y Bob, hasta Siri, Alexa y Cortana. Una línea de tiempo que nos muestra cómo humanizamos máquinas mientras digitalizamos humanos.
¿Cómo puede un malware ser funcional?, ¿acaso parte de la cultura de internet no se basa en advertirnos de los peligros del código malicioso?. En la década de los noventa internet era tierra de nadie (incluso más que en la actualidad) por lo que no era extraño que instaláramos todo tipo de programas que encontrábamos navegando en aquellas rústicas páginas. Las computadoras comenzaban a perfilarse como la tecnología que nos haría la vida sencilla y automatizarían todas las actividades que realizábamos en los equipos de la época.
A finales de la década del ‘90 apareció en internet un asistente virtual llamado BonziBuddy. Este programa nace de la mano de la empresa Bonzi Software, empresa propiedad de los hermanos Joe y Jay Bonzi, quienes ya tenían experiencia en el desarrollo de aplicaciones, por lo que deciden lanzar un primer asistente tomando como base la tecnología Microsoft Agent. La primera versión fue un calco de los personajes que funcionaban como asistentes en el sistema Windows, por lo que les fue necesario crear su propia mascota, la cual hasta la fecha provoca malos recuerdos a todos aquellos que tuvieron la desgracia de instalar BonziBuddy en sus computadoras, el clásico, famoso e infame simio púrpura. Una vez que se ejecuta el programa este simio nos da la bienvenida y lo primero que nos damos cuenta es que este asistente hacía la tarea de redacción y envío de correos electrónicos de forma “automática”.
Pero este asistente no solo se limitaba en la asistencia de los correos electrónicos, también tenía la capacidad de “escuchar” comandos de voz, contaba con juegos, era posible que el simio asistente nos diera datos curiosos, podía contarnos chistes, cantarnos canciones, podía relatarnos historias, servirnos como asistente de búsquedas en internet, sin embargo; lo que más llamaba la atención era la posibilidad de poder interactuar con la mascota, de manera que se creía que BonziBuddy era una de las primeras inteligencias artificiales funcionales, ya que el programa tenía la capacidad “texto a voz”, capacidad que le permitía leer texto en tiempo real. Disponible para cualquiera que quisiera probarla de forma gratuita con descarga directa de su página, no fueron pocos los que instalaron el asistente virtual y pasaron algunas horas de entretenimiento descubriendo lo que el software ofrecía.
Pero su capacidad “texto a voz”, si bien en su momento fue revolucionaria, no se comparaba con el hecho de que BonziBuddy aprendía de las preferencias del usuario y con estos datos daba una experiencia personalizada. Parecía que el inicio y revolución de la inteligencia artificial iría de la mano de Bonzi Software y su producto estrella, mucho más avanzado que cualquier programa de esa época.
Pero la dicha de interactuar con el mono púrpura duraba poco, porque la aplicación requería un registro, con dirección completa del usuario y, en el caso de acceder a la versión Premium, también solicitaba datos bancarios. ¿Por qué una empresa desconocida querría datos detallados de sus usuarios?, la respuesta a estas cuestiones es turbia, ya que se le estaba facilitando información delicada a un programa gratuito de una empresa poco conocida.
Al poco tiempo después de haber instalado el programa, comenzaban a saltar ventanas de forma aleatoria en la computadora, notificando que un virus la había infectado y que era necesario comprar InternetALERT, un programa de la autoría de Bonzi Software, que, una vez comprado, mágicamente hacía desaparecer las notificaciones, adicional a que InternetALERT se vendía como un programa antimalware, ironía pura.
Aún así lo más grave no pasaba por ahí: la información obtenida por esta empresa era vendida para generar anuncios personalizados y una vez que el asistente era desinstalado del equipo dejaba rastros del software para el monitorear sin consentimiento las actividades de las víctimas. Era el año 2000.
A esta altura estaremos preguntándonos: veintitrés años después, las grandes empresas hacen poco esfuerzo por ocultar el negocio que florece con los datos personales que damos en muchos sitios entonces, ¿por qué satanizar tanto a BonziBuddy?, ¿acaso fueron visionarios en la venta de información personal a empresas de publicidad?, ¿alguna vez leemos los contratos de las páginas en las que nos registramos?.
La única diferencia radica en que en la actualidad nadie lee los contratos de licencia y BonziBuddy simplemente no nos presentaba un acuerdo legal.
Bonzi tuvo todo para posicionarse como una de las primeras inteligencias artificiales funcionales y divertidas al alcance del usuario común de internet, pero las malas prácticas lo dejaron como un mal recuerdo de su época. Pero claro, el desarrollo de los asistentes virtuales no fue tan rocambolesco y después de haberse detenido unos años, nuevamente se está convirtiendo en un estándar de la tecnología actual, pero; ¿cómo se dio este avance a lo largo de la historia?
Evolución de los asistentes
-
1960
Los antiguos: Audrey, la “caja de zapatos” de IBM y Harpy
Si bien el equipo de IBM, marcaría un hito en el desarrollo e investigación de inteligencias artificiales, antes de la caja de zapatos (IBM ShoeBox) existió en los ‘60s un asistente primigenio de la mano de Laboratorios Bell (herederos del inventor del teléfono Graham Bell), llamado Audrey, con una capacidad limitada en cuanto al reconocimiento de voz, solamente podía interpretar dígitos del 1 al 9 con una exactitud del 90% siempre y cuando fuese su creador quien dictaba los dígitos, con una bajada al 70 y 80% cuando otra persona hacia el dictado. Con un tamaño aproximado de 1.8 metros, estas limitaciones provocaron que no se diera demasiada difusión a este proyecto, sentando la base sobre la que se construiría la tecnología de IBM y las siguientes.
IBM ShoeBox fue el aparato electrónico con la capacidad de interpretación de voz, este aparato imprimía en papel los comandos que se dictaban, ¡La máquina que era capaz de reconocer la voz humana!, sin duda todo un hito tecnológico, 16 palabras y números del 0 al 9. Pero este equipo no solo se limitaba a la interpretación de comandos de voz, también tenía la capacidad de realizar operaciones aritméticas con los números dictados por voz pudiendo dar un resultado impreso del dictado a shoebox. Si bien hoy en día los asistentes virtuales se han sofisticado y nos hemos acostumbrado a interactuar con ellos, Shoebox representó un nuevo paradigma dentro del desarrollo de la tecnología informática, aclarando que este equipo se presentó en la década del ‘60, específicamente en el año 1961.
También podés leer: Del cibercrimen | Malware y técnicas de obtención de información
-
1970
De la mano de la Universidad Carnegie-Mellon, se desarrolló una tecnología de reconocimiento de voz llamada Harpy, la cual tomaba el diseño de los sistemas creados con anterioridad, lo que le daba una gran capacidad de reconocimiento y una robustez que no existía en sus antecesores. En la tesis “The Harpy Speech Recognition System”, de la autoría de Bruce T. Lowerre podemos leer que se implementan las herramientas de dos sistemas creados con anterioridad, mejorando algunas de sus funciones dando nacimiento a un sistema con la capacidad de reconocimiento de alrededor de 1,000 palabras, tomando como base el Modelo Oculto de Márkov -vital hoy en día para múltiples IA-, que le permitía determinar palabras mediante probabilidad estadística, y adivinar la siguiente palabra dictada. No explicaremos a detalle el modelo ya que es demasiado complejo y comprendí lo necesario para la redacción de este artículo.
-
1990
No fue hasta la década del ‘90 cuando los asistentes se virtualizaron y dieron paso a tecnologías interesantes, con Microsoft creando personajes modelados en 3D que muchos que lo usamos los recordaremos con nostalgia.
Por su parte, IBM mejoró su proyecto y presentó Tangora, basada en la interpretación del lenguaje, tenía la capacidad de análisis de 20,000 palabras en tres idiomas (inglés, italiano y francés), a la vez que contaba con dos formas de uso, era posible dictar palabras completas o darles mediante deletreo, capacidad de interpretación, y la posibilidad de elegir la pronunciación de las letras. Dejando los detalles técnicos de lado, podemos concluir de esta sección que la tecnología de reconocimiento de voz , que fue la base de los asistentes, no pudo más que seguir sofisticándose.
Los agentes de Microsoft y el fracaso de BOB
Microsoft Agent llegó en 1990 a los sistemas Windows de la mano del proyecto BOB, programa que nació como una alternativa más amigable al escritorio nativo del sistema operativo anterior, imposible de manejar por usuarios inexpertos. Esta fue la primera vez que se implementaron personajes que fungían como asistentes virtuales, siendo el primero Rover, un curioso perro color amarillo que nos guía en la configuración del programa. La interfaz imita la sala de una casa en donde los elementos en pantalla son interactivos y es posible ir de habitación en habitación. La aplicación resultaba un poco agobiante debido a la cantidad de texto que se mostraba, el montón de actividades, personalizar los entornos virtuales y la posibilidad de cambiar el personaje que hacía de asistente. Pero sucedía que se sentía más que una interfaz, era más parecido a un videojuego, tenía errores y provocaba pantallazo azul al momento de utilizar algunas funciones, probablemente porque BOB necesitaba más recursos que los equipos promedio de la época.
Microsoft BOB fracasó de manera estrepitosa, y el escritorio como lo conocemos hoy en día se mantuvo como la interfaz default, dejando una clara pregunta ¿qué es lo que tiene que ver este software con el título de este artículo?, a lo que puedo responder: Microsoft Agent. Fue la tecnología que se implementó con éxito dentro de la suite de Microsoft Office, en donde todo aquel que haya utilizado la informática en los noventa conocerá a Clippy, aquel personaje en forma de clip que se movía sobre una hoja y estaba allí para solventar nuestras dudas y darnos guía a la vez que tenían la capacidad texto a voz, los personajes se volvieron populares con la versión de Office 97. Con todo y que en la década de los ‘90 estos agentes fueron relativamente famosos y útiles, se decidió descontinuarlos y se volvieron incompatibles con las nuevas versiones del sistema operativo, pero esto no detendría a Microsoft en proseguir con el desarrollo de la tecnología de interpretación de texto a voz y de asistencia virtual.
Toda esta movida tecnológica tendría su pico en los años venideros y conoceríamos asistentes basados en inteligencia artificial y dentro del internet de las cosas (IoT). Muchos se sofisticaron y ahora tenemos algunas cuantas opciones disponibles de dispositivos que implementan versiones avanzadas de text-to-speech, pero esto no podría ser posible sin el desarrollo de su SAPI (Speech API). Antes de continuar con el siguiente apartado es necesario conocer lo que es una API: dentro del mundo informático, se entiende el término como una interfaz con sus propios protocolos y definiciones que permiten la comunicación entre dos aplicaciones, la API permite que dos partes de software puedan intercambiar información entre ellas, lo que abre muchas posibilidades al poder compartir funcionalidades, como por ejemplo el traductor web de Google.
-
2010
Reconocimiento de voz, internet de las cosas y la implementación definitiva de la inteligencia artificial: Siri, Cortana, Bixby y Alexa
Las API basadas en el reconocimientos de voz abrieron un abanico de posibilidades, teniendo en cuenta que Speech API permite no solo el intercambio de información textual, sino la interpretación y reconocimiento de voz (que sí bien al final es traducida por el dispositivo, al final facilita su utilización al usuario), por lo que ya no solo era posible interactuar con un modelo en tercera dimensión de un software de forma local, sino que ahora es posible realizar consultas de forma directa en internet utilizando el lenguaje hablado.
Cuando internet pudo interactuar con objetos más allá de los equipos de cómputo nació el concepto de Internet de las Cosas (IoT) (NdE: de su traducción al ingles Internet of Things), que engloba cualquier objeto físico que tenga la capacidad de conectarse a internet, vehículos, relojes, altavoces, bombillas y muchos otros objetos cotidianos. El internet de las cosas se ha convertido en estándar, y nos cuesta imaginar la vida sin tantos aditamentos que dependen de una conexión a internet constante para poder realizar sus tareas. A la par, la interpretación y reconocimiento de voz evolucionaron al punto que un altoparlante con micrófono podría solucionarnos la vida.
Las SAPI permiten que estos objetos cuentan con compatibilidad y comunicación entre otros dispositivos y el internet, haciendo posible el reconocimiento de voz en dispositivos como teléfonos móviles, como es el caso de Siri y los asistentes que vinieron después.
Siri conoció el mundo en el año 2007 de la mano de SRI Ventures. Desarrollaron la tecnología de reconocimiento de voz que se conocería de forma mundial con su integración en los teléfonos móviles de Apple. Esta empresa adquirió esta tecnología el 28 de abril del 2010 y la implementaría en sus dispositivos iPhone 4S en octubre del 2011. Fue con la llegada de este dispositivo cuando los asistentes virtuales ganaron relevancia: ya era posible consultar a Siri en cualquier momento con el famoso comando “oye Siri”, y ver cómo se adaptaba a las preferencias de los usuarios, siendo esta característica la más destacable cuando se presentó.
Estas características no fueron lo único que ofrecía Siri, también permitía la interacción entre las propias aplicaciones del teléfono, establecer por comando de voz alarmas, marcar fechas en el calendario, marcación telefónica a los contactos de la agenda, navegar en internet entre otras cosas. Sin duda la posibilidad de utilizar comandos de voz para que el dispositivo cumpliera las tareas fue lo más atractivo, por lo que pronto comenzaron a salir competidores, de ahí que tuviéramos a Cortana por parte de Microsoft; Bixby de la mano de Samsung e incluso Google trabajó en su propio asistente de voz. En primera instancia los asistentes virtuales se implementaron en los sistemas operativos de los dispositivos, Bixby en la serie Galaxy de los teléfonos de Samsung y Cortana en Windows. Si bien tenían funcionalidades parecidas, Bixby experimentaba algunos problemas de interpretación de voz y otros funcionales. No sería hasta la llegada del dispositivo de Amazon que la tecnología de interpretación de voz se masificara y se afianzara en nuestras vidas.
Alexa llegó con una revolución, se implementó en los llamados Echo Dot, altavoces inteligentes que permiten hacer consultas e interpretar comandos de voz, conexión a servicios de streaming como Spotify o el propio servicio de Amazon (Amazon Music), y no solo esto, ya que es posible que interactúe con pantallas, focos, enchufes, humidificadores, iluminaciones y una larga lista de aparatos compatibles. Pareciera que esto es un comercial, pero no, la compatibilidad de Alexa dentro de las bocinas Echo Dot es increíble. Es necesario recordar que esta capacidad nace de la implementación de las tecnologías de reconocimiento de voz junto con el IoT.
Hasta este punto no podría concluir acerca de lo preocupante que podría resultar automatizar hasta el mínimo detalle de nuestra vida cotidiana, ya que es un hecho que estos dispositivos están creando una dependencia que no parece normal si nos ponemos a analizar hasta donde está llegando la capacidad de los asistentes virtuales.
Google, Samsung y Apple han lanzado sus propios dispositivos, pero no han logrado llegar a la popularidad de Amazon. Por ejemplo, Homepod de Apple requiere que los dispositivos a los que se conecte sean de la misma empresa. Samsung por su parte logra sacudirse las problemáticas de Bixby y Google con su entorno Nest, asistente que resulta ser más natural y cuenta con una mayor capacidad al momento de mantener conversaciones.
Conclusión
Cada opción tiene sus pro y contras, como cualquier producto en el mercado, pero lo que nos interesa en esta nota no es saber cuál dispositivo es mejor, solo era necesario recalcar un poco las capacidades con las que cuenta cada altavoz. Lo que resulta interesante y va de acorde con la temática radica en el grandísimo avance que han tenido las tecnologías de reconocimiento de voz. La integración de inteligencia artificial dentro de estos modelos propone cuestiones por demás interesantes, ya que se ha anunciado que Alexa contará con un modelo de lenguaje basado en IA, lo que posibilita tener conversaciones como las que que se tienen con ChatGPT, por lo que cada vez resultará más natural interactuar con los dispositivos.
Esto lleva a preguntarme que quizás nos estemos alejando de la interacción humana: al final del día la comunicación con dispositivos es más sencilla, no requiere un esfuerzo adicional en cuanto a la interacción, sobre todo teniendo en cuenta que que es tan fácil como utilizar el lenguaje hablado, lo que acerca y motiva el surgimiento de sentimientos de pertenencia con los dispositivos. Quizá suene exagerado, pero solo es necesario echar un vistazo a las relaciones parasociales que hemos forjado con los creadores de contenido en internet y a la par también resulta muy curioso que las relaciones parasociales se den en el ámbito Vtuber, con un avatar animado en pantalla, que nos hace sentir empatía por un personaje de nuestro agrado. Así ya no parece tan imposible que algunos desplacen su vida social por la interacción con dispositivos inteligentes.
El avance en la tecnología de reconocimiento de voz pasó de crear asistentes básicos a convertirse en un estándar en la industria, y ahora potenciado por inteligencias artificiales configuran un nuevo término para designar la implementación de estas tecnologías en el internet de las cosas que nos impactan en el día a día: la Domótica, término que se refiere al conjunto de dispositivos que obedecen a un conjunto de tecnologías inteligentes que permite la automatización de labores, como lo es controlar cerraduras, iluminación, termostatos, alarmas de seguridad y bueno, todo aditamento y dispositivo que exista dentro de una vivienda simplemente mediante comando de voz. Resultará más que interesante ver como evolucionarán junto con la domótica y cómo cambiaron la forma en que interactuamos entre nosotros y la tecnología, algo que solo puede provocar miedo o esperanza.
Links
- Intimación de los EEUU a Bonzi Software: €BONZI SOFTWARE, INC.€ (ftc.gov)
- Investigación sobre Bonzi: https://www.thefastcode.com/article/a-brief-history-of-bonzibuddy-the-internet-s-most-friendly-malware
- Historia de los interpretes de voz: https://www.bbc.com/future/article/20170214-the-machines-that-learned-to-listen
- Sobre el fracaso de Microsoft BOB: https://www.fayerwayer.com/internet/2023/06/13/microsoft-bob-el-mayor-fracaso-de-bill-gates-cinco-curiosidades-sobre-el-fiasco/
- Historia de Siri: https://www.nextu.com/blog/la-historia-detras-de-siri-rc22/