Archivering van social media

In 2021 ontving het Regionaal Archief Alkmaar (RAA) het social media-archief van twee gefuseerde gemeenten. Social media-archivering bevond zich, en doet dat eigenlijk nog steeds, in een experimentele fase. De Adviseurs Digitale Informatie (ADI's) hebben de aangeleverde dataset geanalyseerd en op basis van bestaande documentatie en inzichten uit het werkveld een eigen oplossing ontwikkeld.

De uitdagingen

Het RAA ontving een dataset, waarbij onder tijdsdruk de exportfunctionaliteit was gebruikt die de social mediaplatformen zelf aanbieden. De accounts waren op het moment van ontvangst al opgeheven. Hierdoor hadden we geen inspraak meer op hoe we de data aangeleverd wilden hebben. Dit maakte de opname van de dataset in onze e-depotvoorziening extra uitdagend: we hanteren namelijk bepaalde aanlevervoorwaarden om al het archief duurzaam toegankelijk te maken. De dataset voldeed aan geen van deze voorwaarden. Om archief te kunnen opnemen in ons e-depot moet de data worden aangeleverd volgens de TMLO ToPX-RIP-structuur, ontwikkeld door het Nationaal Archief. Dit betekent dat het gehele digitaal archief een dataset is waarbij alle bestanden en de metadata in één maplaag zitten. Voor dit project hadden we dus de uitdaging om de geleverde social media-export te transformeren naar de ToPX-RIP-structuur, terwijl de oorspronkelijke context en structuur behouden moesten blijven.

Wat hebben we precies ontvangen?

De social media-accounts die deel uitmaken van de dataset waren allemaal aangemaakt onder het werkadres van medewerkers van de voormalige gemeenten. De dataset zelf bestond uit verschillende social media-kanalen van de gemeenten. Dit waren Facebook, Instagram, Twitter (tegenwoordig X) en een download vanuit Google Drive met daarin materiaal vanuit YouTube. Verder hebben we gekeken naar de verschillende bestandsformaten binnen elke social media-export. Zo bleken de bestandsformaten van Facebook en Instagram op elkaar te lijken, omdat ze voornamelijk uit HTML-bestanden bestaan. De Twitter-export bestond hoofdzakelijk uit JavaScript en de Google-export uit JSON-bestanden.

To WARC or not to WARC?

Nu we in kaart hadden gebracht hoe de dataset eruitzag, konden we onderzoek doen naar de randvoorwaarden om de data duurzaam toegankelijk te bewaren. De eerste stap was kijken naar het formaat waarin de data opgeslagen moest worden. De ‘Norm Voorkeursformaten’ van het Nationaal Archief geeft aan dat WARC, een containerformaat voor het archiveren van websites, het voorkeursformaat is. Omdat we al een dataset hadden ontvangen in een ander bestandsformaat en een nieuwe export niet meer mogelijk was, hebben we besloten om WARC als voorkeursformaat te hanteren wanneer er nog geëxporteerd of geharvest moet worden. Het bleek geen optie te zijn om de data om te zetten naar WARC. Het grootste voordeel van WARC, het beter behouden van de look and feel van de pagina’s, zou dan juist niet meer kunnen worden benut. Daarnaast zou dit een extra bewerking van de oorspronkelijke data betekenen, naast het omzetten van de data naar een structuur met maar één maplaag. Na het verzamelen van onze bevindingen, hebben we gesproken met het NA over de verschillende mogelijkheden om de dataset duurzaam toegankelijk op te slaan. Een van de mogelijkheden was om deze op te nemen in het e-depot als ZIP-bestand. Dit heeft als voordeel dat de oorspronkelijke structuur behouden blijft. Wel is er een nadeel voor de preservering: het ZIP-bestand is, net als een WARC-bestand, een container en wordt dus in zijn geheel gepreserveerd. De individuele bestanden binnen de container zelf worden echter niet gepreserveerd. Dit betekent dat bij het corrupt raken van een onderdeel, het gehele bestand corrupt raakt in plaats van alleen een onderdeel daarvan. In de toekomst, wanneer er hopelijk betere en meer oplossingen voorhanden zijn, willen we het ZIP-bestand gebruiken om de data op nog beter passende wijze op te nemen in ons e-depot. Als laatste hebben we gekeken naar de voor- en nadelen van het transformeren van de dataset naar één maplaag. Een absolute eis was dat de oorspronkelijke functionaliteiten intact moesten blijven. Dat betekende een transformatie van de dataset met behoud van interne verwijzingen. Het voordeel is dat alle bestanden individueel worden gepreserveerd. Hierdoor is het ook mogelijk om beperkingen op de openbaarheid op bestandsniveau in te regelen, in plaats van het hele archief te beperken. Een laatste voordeel is dat de dataset wordt opgeslagen in het bestandsformaat waarin deze aan ons is aangeleverd en er geen conversie nodig is om deze toegankelijk te maken.

De aanpak

Van de drie opties – het opnemen als WARC, ZIP of HTML – hebben we gekozen om er twee te gebruiken. De eerste optie is het opnemen als ZIP, want daarmee kunnen we de oorspronkelijke dataset behouden. Daarnaast hebben we ook gekozen voor het opnemen in HTML voor Facebook en Instagram. Hierbij zijn de bestanden individueel opgenomen door de mappenstructuur aan te passen volgens de vereisten van de ToPX- RIP-structuur. Daarbij hebben we de mappenstructuur (als boomstructuur) opgenomen in een apart bestand, zodat deze bij beschikbaarstelling gereconstrueerd kan worden. Voor Twitter en Google is nog geen vergelijkbare oplossing gevonden, anders dan het als ZIP op te nemen.

Openbaarheid en AVG

Eind vorig jaar hebben we onze blog ‘Persoonsgegevens in een social media archief’ online gezet.

Het social media-archief bevat veel privé berichten van burgers. Hierdoor heeft de gefuseerde gemeente besloten om het archief grotendeels in de openbaarheid te beperken. Het RAA heeft hierbij geadviseerd. In onze studiezaal is op aanvraag via een beveiligde computer het hele archief wel in te zien.

Handreiking sociale media archivering

Met trots delen we dat het Nationaal Archief ons project heeft opgenomen als praktijkvoorbeeld in de handreiking social media-archivering. We hopen dat ons praktijkvoorbeeld anderen inspireert om verder te experimenteren en te innoveren binnen de archiefsector.

Het praktijkvoorbeeld, evenals wat meer informatie over het project, is hier te vinden: Praktijkvoorbeeld Regionaal Archief Alkmaar | Nationaal Archief

Geïnteresseerd geraakt in hoe we het project hebben aangepakt? Of heb jij als organisatie meer ervaring met Twitter (X) of YouTube? Dan vertellen we graag over het project, of sparren graag over de opties. Mail dan naar Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

Door Dyana (Regionaal Archief Alkmaar)

 

test