«Twitter es una compañía que vende licencias para acceder a más metadatos cuanto más pagues»: Entrevista a Aniol Maria, Técnico de Archivo en el Departamento de Políticas Digitales y Administración Pública de Catalunya (1ª parte)

Aunque le suelen encasillar como archivero digital, -por sus conocimientos en informática-,  y tras haberse especializado en preservación archivística de redes sociales, ha trabajado en multitud de proyectos, de lo digital al papel, y de lo público al privado. Aniol es historiador. Estudió Historia por motivos que apelan más a la circunstancia del momento que a la vocación personal para luego adentrarse en el mundo de los archivos históricos. En la actualidad, es miembro de la Asociación de Archiveros de Catalunya y trabaja como técnico de archivo en el Departamento de Políticas Digitales y Administración Pública de la Generalitat de Catalunya. Ha formado parte de  diversos grupos de trabajo, como  por ejemplo el Grupo de Trabajo en Transparencia y Datos Abiertos en el cual su equipo y él han elaborado un Modelo de Transparencia para la Administración Pública, así como otros más mediáticos como el proyecto #Cuéntalo, proyecto que nació con el fin de recopilar testimonios a través de Twitter sobre abusos sexuales sufridos por mujeres. 

Habrá quienes no conciben que se pueda unir dos conceptos aparentemente tan antagónicos y diferentes como son la preservación archivística y twitter? ¿Qué diría al respecto?

(AM) Que se lean mi Trabajo de Final de Máster  y a partir de allí me planteen las dudas. Les diría básicamente que piensen cuantos movimientos sociales se han desarrollado en las redes sociales, y que me definan el dilema de por qué discutimos tanto si hay que preservar o no Twitter. A mi me hubiera gustado mucho tener las herramientas que tenemos ahora de captura de redes sociales ya en el año 2011, cuando la Revolución egipcia de ese año en la Plaza Tahrir (o Plaza de la Liberación), y poder ofrecer toda esa información a la investigación académica que tantas especulaciones ha planteado acerca de quién motivó ese levantamiento social. Estamos dejando que los debates epistemológicos necesarios se conviertan en discusiones bizantinas cuando la urgencia histórica nos pide también praxis y acción.

¿Qué nos ofrece Twitter para preservar los datos e información de cualquier cuenta de usuario? ¿Cómo se lleva a cabo el tratamiento archivístico en esta red social?

(AM) Twitter nos ofrece además de los mensajes principales de cada tweet, también todos los metadatos que acompañan ese tweet: nombre de usuario, fecha y hora, número de registro (id), qué aplicación se usó para mandar el mensaje, algunos campos de geolocalización,… Son varias decenas de metadatos distintos que varían según el momento ya que Twitter va cambiando de criterio por motivos internos por ejemplo nuevos planes de comercializar datos extraídos de los tweets . Twitter es una compañía que vende licencias para acceder a más metadatos cuanto más pagues, y aceptamos esa licencia cuando decimos que sí en los Términos de uso del servicio.

¿Qué herramientas usan las instituciones para llevar a cabo este tratamiento documental / archivístico?

(AM) Es un poco dispar. No ha habido un consenso y como las redes sociales ofrecen sistemas de API para pedir datos, cada cual se ha montado su software para comunicarse con esa API. También hay quien ha pasado de usar la API y se pone a hacer capturas de pantalla o guardar solo la información que se muestra en los navegadores web, pero esta segunda opción descarta gran parte de los metadatos que sí ofrecen las API.

No ha sido hasta hace poco que ha empezado un poco a organizarse, y a ver que tenemos que empezar a definir y acotar las herramientas que vamos a usar, para poder tener unos estándares que ayuden a que la información preservada de redes sociales sea lo más equiparable posible entre instituciones.

Es momento de probar y experimentar y de atreverse a plantear un proyecto integrado y asegurado en la institución que sistematice esa preservación y no se haga mayormente de forma más o menos voluntariosa y esporádica. Si alguien quiere ver ejemplos interesantes puede empezar por la Library of Congress, que son quienes han conseguido ir más lejos  hasta ahora en archivar tweets con apoyo directo de Twitter.

Algunos de los grandes proyectos en los que has trabajado han sido recopilar tweets durante el Referéndum de Cataluña del 1 de octubre, o en los atentados del 17 de agosto en La Rambla de Barcelona. ¿Con qué fin surge la iniciativa? ¿Cómo se llevó a cabo el tratamiento de búsqueda,selección, análisis y difusión de los tweets?

Fue un reto que plantearon Vicenç Ruiz y Joan Soler, los dos son los que idearon y dirigen el Grupo de Transparencia y Datos Abiertos de la Asociación de Archiveros y Gestores de Documentos de Cataluña. Y vieron que esos acontecimientos del año 2017 eran el momento de poner en práctica todo lo que yo estaba investigando y probando desde mi etapa de estudiante en la escuela de archivística ESAGED.

El tratamiento de búsqueda, selección, análisis y difusión fue a base de prueba y error. Como no había previsto ninguno de esos acontecimientos tenía mis mínimos conocimientos sobre algunas herramientas, pero después de mi TFM tuve que centrarme en otros trabajos de archivo y no estaba tan al día. Así que en agosto de 2017 empecé una carrera contrarreloj para aprender cómo funcionaba Twarc  por ejemplo, que fue la herramienta que uso desde entonces para capturar lo que se publica en hashtags relevantes de Twitter. En esa prueba y error me di cuenta de muchas limitaciones: de tiempo ya que la ventana abierta de captura que te permite Twitter se limita una semana de margen, a descubrir que cuanto más tardes más mensajes puede borrar la gente o se pierden por el margen de tiempo limitado de Twitter, o que cuanto más tiempo dejes los mensajes antes de capturarlos más metadatos acumulan en forma de interacciones; es todo buscar un equilibrio. Aunque el mérito de la captura enorme de tweets del Referéndum de Cataluña del 1 de octubre  se debe a Ed Summers y Documenting The Now ya que por esas fechas en la AAC-GD aún estábamos aprendiendo, y fueron ellos los mismos desarrolladores de Twarc los que se encargaron de la captura con ayuda de nuestro asesoramiento acerca de qué hashtags y temas era relevante que se centraran.

A partir de toda esa experiencia y una vez tuve habilidad suficiente para trabajar con Twarc por mi cuenta, entonces ya fuimos bastante por libre sobre los hashtags que capturamos (siguiendo en contacto con Documenting The Now porque son imprescindibles).

Cómo definiría un tuit desde el punto de vista del tratamiento de la preservación archivística y la gestión documental.

(AM) Primero hay que entender qué es una base de datos. Para mi una base de datos sería un “libro de registros” digital con muchos campos en cada registro. Si entendemos esto, los tweets son entradas en la base de datos de Twitter y por lo tanto su preservación completa debería proceder de esa base de datos original propiedad de Twitter. Como eso actualmente no es posible tenemos dos opciones, o dejar que la eventualidad determine si Twitter será capaz de preservar y difundir esa información para la investigación científica, o si por otro lado queremos ser proactivos y empezar ya a ofrecer muestras llenas de metadatos de esa base de datos de Twitter.

Evaluamos la relevancia de ciertos hashtags, capturamos en bruto  esos hashtags, y planteamos un sistema de preservación posterior con su ficha de descripción mínima.


Comparte esta entrada