ChatGPT robó tu trabajo. ¿Entonces qué vas a hacer?
si alguna vez subió fotos o arte, escribió una reseña, le dio “Me gusta” al contenido, respondió una pregunta en Reddit, contribuyó al código fuente abierto o realizó cualquier otra actividad en línea, ha realizado un trabajo gratuito para empresas de tecnología, porque descargar todo este contenido de la web es cómo sus sistemas de IA aprenden sobre el mundo.
Las empresas de tecnología lo saben, pero enmascaran sus contribuciones a sus productos con términos técnicos como “datos de capacitación”, “aprendizaje no supervisado” y “agotamiento de datos” (y, por supuesto, documentos impenetrables de “Términos de uso”). De hecho, gran parte de la innovación en IA en los últimos años ha consistido en formas de utilizar cada vez más contenido de forma gratuita. Esto es cierto para los motores de búsqueda como Google, los sitios de redes sociales como Instagram, las nuevas empresas de investigación de IA como OpenAI y muchos otros proveedores de tecnologías inteligentes.
Esta dinámica de explotación es particularmente dañina cuando se trata de la nueva ola de programas de IA generativa como Dall-E y ChatGPT. Sin su contenido, ChatGPT y todos los demás simplemente no existirían. Muchos investigadores de IA piensan que su contenido es en realidad más importante que lo que están haciendo los científicos informáticos. Sin embargo, estas tecnologías inteligentes que explotan su trabajo son las mismas tecnologías que amenazan con dejarlo sin trabajo. Es como si el sistema de IA entrara en tu fábrica y robara tu máquina.
Pero esta dinámica también significa que los usuarios que generan datos tienen mucho poder. Las discusiones sobre el uso de tecnologías sofisticadas de IA a menudo provienen de un lugar de impotencia y la postura de que las empresas de IA harán lo que quieran, y hay poco que el público pueda hacer para cambiar la tecnología en una dirección diferente. Somos investigadores de IA, y nuestra investigación sugiere que el público tiene una gran cantidad de “aprovechamiento de datos” que se puede utilizar para crear un ecosistema de IA que genere nuevas tecnologías asombrosas y comparta los beneficios de esas tecnologías de manera justa con las personas que las crearon.
El apalancamiento de datos puede implementarse a través de al menos cuatro vías: acción directa (por ejemplo, individuos que se unen para retener, “envenenar” o redirigir datos), reacción reglamentaria (por ejemplo, impulsar una política de protección de datos y el reconocimiento legal de las “coaliciones de datos”), accion legal (por ejemplo, comunidades que adoptan nuevos regímenes de licencias de datos o inician una demanda), y acción del mercado (por ejemplo, exigir que los modelos de lenguaje grande se entrenen solo con datos de creadores que hayan dado su consentimiento).
Comencemos con la acción directa, que es una ruta particularmente emocionante porque se puede hacer de inmediato. Debido a la dependencia de los sistemas de inteligencia artificial generativa en el raspado web, los propietarios de sitios web podrían interrumpir significativamente la canalización de datos de entrenamiento si no permiten o limitan el raspado configurando su archivo robots.txt (un archivo que les dice a los rastreadores web qué páginas están fuera del límite).
Los grandes sitios de contenido generado por el usuario como Wikipedia, StackOverflow y Reddit son particularmente importantes para los sistemas de IA generativa y podrían evitar que estos sistemas accedan a su contenido de maneras aún más fuertes, por ejemplo, bloqueando el tráfico de IP y el acceso a la API. Según Elon Musk, Twitter ha hecho recientemente exactamente esto. Los productores de contenido también deben aprovechar los mecanismos de exclusión voluntaria que las empresas de IA ofrecen cada vez más. Por ejemplo, los programadores en GitHub pueden optar por no recibir los datos de entrenamiento de BigCode a través de un formulario simple. De manera más general, el simple hecho de expresarse cuando el contenido se ha utilizado sin su consentimiento ha sido algo efectivo. Por ejemplo, el principal jugador generativo de IA, Stability AI, acordó cumplir con las solicitudes de exclusión voluntaria recopiladas a través de haveibeentrained.com después de un alboroto en las redes sociales. Al participar en formas públicas de acción, como en el caso de las protestas masivas de los artistas contra el arte de la IA, es posible obligar a las empresas a cesar las actividades comerciales que la mayoría del público percibe como un robo.