Veelgestelde vragen

  1. Algemeen
    1. Waarom zou Beeld en Geluid websites van de publieke omroepen archiveren?
    2. Wat houdt webarchivering eigenlijk in?
    3. Wat voor websites archiveert Beeld en Geluid?
    4. Welke organisaties zijn er nog meer bezig met webarchivering?
    5. Voor wie is dit webarchief bedoeld?
    6. Wat zit er nu allemaal in het webarchief, en wat niet?
    7. Hoe kan ik door het webarchief zoeken?
    8. Ik vind dat een website echt niet mag ontbreken in het webarchief, kan ik dat ergens aangeven?
    9. Er zitten nu nog weinig websites in het webarchief, wordt dit aantal in de toekomst nog uitgebreid?
  2. Rechten
    1. Er zit content van mij in het webarchief waar ik geen toestemming voor heb gegeven, hoe kan ik deze laten verwijderen?
    2. Er zitten commentaren, reacties of andere bijdragen van mij in het webarchief die ik wil laten verwijderen, hoe kan ik dat doen?
    3. Ik wil graag teksten, afbeeldingen of andere content uit het webarchief (her)gebruiken, mag dit?
  3. Technisch
    1. Welke software is gebruikt om de websites te archiveren?
    2. Wat zijn de beperkingen van een webarchief ten opzichte van een live website?
    3. Met welke browsers kan ik het webarchief het beste bekijken?
    4. Welke resolutie kan mijn scherm het beste hebben om het webarchief het beste te kunnen bekijken?

Algemeen

Waarom zou Beeld en Geluid websites van de publieke omroepen archiveren?

Omroepwebsites geven een heel goed overzicht van de ontwikkelingen binnen de omroepen en van hun programma’s. Op programmawebsites wordt een programma in context gepresenteerd door omroepen en makers, waarbij kijkers direct kunnen reageren en vaak zelf ook bijdragen door foto’s en video’s te plaatsen. Op de fora en in blogs van de publieke omroepwebsites worden programma’s uitgebreid besproken. Om de context van de AV-collectie van Beeld en Geluid te kunnen vangen, moeten dus ook de websites van de publieke omroepen worden gearchiveerd.

Het web is echter vluchtig en verandert constant. Websites worden soms wel dagelijks aangepast. Archiveren met terugwerkende kracht is niet mogelijk, en met vooruitziende blik alles compleet archiveren vanaf het ontstaan ook niet. Daarbij zijn omroepwebsites extra kwetsbaar: vanwege bezuinigingen bij de omroepen en de hen door de Nederlandse overheid opgelegde beperking in het aantal websites dat zij mogen hebben, moeten er de komende jaren talloze websites verdwijnen. Als we niets doen, verdwijnen deze belangrijke contextcollecties voor altijd, zowel voor huidige als toekomstige generaties.

Wat houdt webarchivering eigenlijk in?

Websites worden veelal gearchiveerd door een ‘web crawler. Dit is specifieke software die op basis van opgegeven randvoorwaarden (bijvoorbeeld: “archiveer deze website volledig” of “archiveer alle domeinen binnen Nederland”) automatisch een kopie maakt van alle content die hij tegenkomt, zoals die op dat moment op de website staat. Afhankelijk van de grootte van een website duurt dit proces enkele uren tot enkele dagen. Voor het archiveren van de omroepwebsites hebben wij Heritrix gebruikt, een open source crawler die in bijna een kwart van alle webarchiveringsprojecten wordt gebruikt (http://blogs.loc.gov/digitalpreservation/2012/07/the-ndsa-web-archiving-survey/).

De content die een crawler archiveert is heel divers: van de tekst op een website, afbeeldingen, video- en audiobestanden, maar ook de code waarin staat hoe een website er uit moet zien. Al deze content wordt in een speciaal bestandsformaat opgeslagen (ARC of WARC files, http://en.wikipedia.org/wiki/Web_ARChive), die door speciale toegangssoftware kan worden ‘gelezen’.

Op dit moment is het voor Heritrix en vrijwel alle andere web crawlers niet mogelijk om alle content te archiveren. Zo zijn streaming video, databases, zware Javascript, Flash en andere soorten dynamische content nog niet goed te archiveren. 

Wat voor websites archiveert Beeld en Geluid?

Beeld en Geluid heeft in de pilot met de NTR vier websites gearchiveerd: Premtime, Verre Verwanten, NovaTV en SchoolTV Plein. We willen dit in de toekomst gaan uitbreiden, zowel qua aantallen als qua omroepen. De focus zal echter altijd liggen op websites van de publieke omroepen, die een relatie hebben met de audiovisuele kerncollectie van Beeld en Geluid. Zijn er websites die volgens jou écht niet mogen ontbreken, of werk je bij een publieke omroep en wil je meer informatie over webarchivering? Meld dit dan hier aan. Op deze manier kunnen we een beeld krijgen van de interesse in webarchivering en hier in de toekomst mogelijk op inspelen.

Welke organisaties zijn er nog meer bezig met webarchivering?

Nationaal en internationaal gezien wordt het belang van webarchivering onderkend. In Nederland is met name de Koninklijke Bibliotheek zeer actief, en zijn er ook enkele andere initiatieven, zoals de reconstructie van De Digitale Stad (re:DDS) en het ArchiPol archief van de Universiteit van Groningen. In Nederland wordt het belang van webarchivering en de rolverdeling tussen de verschillende uitvoerende organisaties in de Nationale Coalitie Digitale Duurzaamheid geborgd. Beeld en Geluid participeert in de NCDD.

Internationaal zijn onder meer de Library of Congress, de British Library, het Institut national de l'audiovisuel en de alom bekende WayBack Machine van de Internet Archive zeer actief.

Voor wie is dit webarchief bedoeld?

Het webarchief biedt toegang tot sites die zijn offline zijn gehaald of zijn veranderd, en is dus een bron voor eenieder met een interesse in de (online) ontwikkelingen binnen de Nederlandse publieke omroepen. Van journalisten tot mediawetenschapers, en van omroepmedewerkers tot fans van programma’s. Het webarchief is nu nog klein, maar het streven is dat het in de toekomst zal gaan groeien, zowel qua aantal websites als functionaliteiten. Zijn er websites die volgens jou écht niet mogen ontbreken, of werk je bij een publieke omroep en wil je meer informatie over webarchivering? Meld dit dan hier aan. Op deze manier kunnen we een beeld krijgen van de interesse in webarchivering en hier in de toekomst mogelijk op inspelen.

Wat zit er nu allemaal in het webarchief, en wat niet?

Op dit moment zitten er vier websites in het archief die zijn gearchiveerd in het kader van een pilot die Beeld en Geluid samen met de NTR heeft uitgevoerd. Het gaat om:

  • NovaTV: in 2010 werd Nova vervangen door het programma Nieuwsuur, waardoor de oude website niet meer werd onderhouden. Bevat specifieke dossiers en rapporten over onderwerpen die in Nova aan bod kwamen.
  • PREMtime: dit programma, gepresenteerd door Prem Radhakishun, was te horen op Radio 1 van september 2010 tot augustus 2012. De website bevat informatie over diverse onderwerpen die speelden in de Nederlandse maatschappij.
  • SchoolTV Plein: was een portal voor jongeren waar ze materiaal konden vinden om op school én thuis mee te werken.
  • Verre Verwanten: liep van 2005-2008. In dit programma gingen bekende Nederlanders op zoek naar hun genealogische geschiedenis. Site bevat veel informatie over historische gebeurtenissen.

Vrijwel alle teksten en afbeeldingen die op de oorspronkelijke websites stonden zijn te vinden in het archief.

Hoe kan ik door het webarchief zoeken?

Op de voorpagina ziet u een aantal websites in het archief, door deze aan te klikken ziet u gelijk een lijst met zoekresultaten. In het zoekvenster bovenaan de pagina kunt u desgewenst gelijk zoeken naar resultaten uit het gehele archief.
Onder de zoekbalk staan filter waarmee de zoekresultaten verfijnd kunnen worden tot een specifieke omroep, programma of periode.
U kunt meerdere zoektermen opgeven, en gebruik maken van de volgende syntaxen:

  • kat hond: zoekt op kat EN hond
  • kat | hond: zoek op kat EN/OF hond
  • ~kat: zoek op woorden die lijken op kat
  • “kat hond”: zoek op specifieke combinatie kat hond.

Ik vind dat een website echt niet mag ontbreken in het webarchief, kan ik dat ergens aangeven?

Jazeker. Beeld en Geluid wil graag inzicht krijgen in welke websites belangrijk worden gevonden en in het algemeen welke interesse er is in webarchivering van publieke omroepwebsites. We kunnen niet beloven dat websites die worden aangemeld ook worden gearchiveerd, dit hangt af van rechtenkwesties, technische afhankelijkheden en middelen. Echter: hoe meer websites worden aangemeld, hoe meer inzicht we krijgen in de belangstelling voor en bewustwording van het belang van webarchivering!

Er zitten nu nog weinig websites in het webarchief, wordt dit aantal in de toekomst nog uitgebreid?

Beeld en Geluid wil zeker een groter webarchief opbouwen. De publieke omroepwebsites zijn belangrijke contextcollecties die extra duiding en informatie geven over de av-collecties van Beeld en Geluid. Daarbij zijn websites in tegenstelling tot fysieke collecties extra kwetsbaar: ze kunnen offline worden gehaald of drastisch veranderen, waardoor eerdere versies niet meer raadpleegbaar zijn. Daarom moeten websites actief worden gearchiveerd om te zorgen dat ze niet verdwijnen.

Rechten

Er zit content van mij in het webarchief waar ik geen toestemming voor heb gegeven, hoe kan ik deze laten verwijderen?

Beeld en Geluid tracht de rechten van makers en uitvoerenden van de content in dit webarchief optimaal te waarborgen. Beeld en Geluid heeft dan ook voorzover redelijkerwijs mogelijk is zich er van vergewist dat er geen inbreuk wordt gepleegd op rechten van derden. Mocht er toch materiaal in het webarchief zitten waar u (deels) de rechten van bezit, en waarvan u meent dat het niet rechtmatig in het webarchief zit, meld dit dan via dit formulier.

Er zitten commentaren, reacties of andere bijdragen van mij in het webarchief die ik wil laten verwijderen, hoe kan ik dat doen?

Beeld en Geluid archiveert websites van de publieke omroepen die publiek toegankelijk zijn of waren. Pagina’s die enkel beschikbaar waren door een gebruikersnaam en wachtwoord in te vullen, een formulier in te vullen en pagina’s met een “robot.txt exclusion” zijn niet gearchiveerd, behalve als hier expliciet toestemming voor is gegeven. Als er toch commentaren, reacties of andere bijdragen van jou in het webarchief zitten, en u wilt deze laten verwijderen, meld dit dan via dit formulier. [LINK TOEVOEGEN] Wij nemen uw aanvraag dan in behandeling.

Ik wil graag teksten, afbeeldingen of andere content uit het webarchief (her)gebruiken, mag dit?

In principe is de content in het webarchief niet vrij herbruikbaar, tenzij expliciet aangegeven. Als u content wilt hergebruiken, meld dan via webarchief@beeldengeluid.nl het volgende:
De specifieke URL(s) waar de content staat die u wilt hergebruiken.
De wijze waarop u de content wilt hergebruiken.
Voor welk doel en voor welke periode u de content wilt hergebruiken.
Voor welk medium u de content wilt hergebruiken.
Wij nemen dat zo snel mogelijk contact met u op.

 

Technisch

 

Welke software is gebruikt om de websites te archiveren?

De websites zijn gearchiveerd met Heritrix, een open source crawler die vele webarchiveringsprojecten over de hele wereld wordt gebruikt. Dit is aangevuld met specifieke tools en methodes voor dynamische en andere content die Heritrix niet (goed) kan crawlen, zoals video’s, kaartapplicaties, Flash animaties, en Twitter feeds.

Wat zijn de beperkingen van een webarchief ten opzichte van een live website?

Vrijwel alle teksten en afbeeldingen die op de oorspronkelijke websites stonden zijn te vinden in het webarchief. Echter, het kan zijn dat sommige content, zoals video’s, audiobestanden, databases en kaartapplicaties niet zijn gearchiveerd of terug te spelen zijn. Daarnaast werken links naar externe websites, formulieren en zoekbalken niet in een gearchiveerde website.  Dit komt doordat een webarchief een afgesloten geheel is, en door de beperkingen van de huidige webarchiveringssoftware, die technieken zoals POST Requests niet kunnen nabootsen. Daarbij kan het zijn dat een gearchiveerde website er anders uitziet dan een live site, doordat ofwel niet alle informatie over de opmaak en functionaliteit (e.g. CSS, JavaScript) volledig is gearchiveerd, of doordat de software waarmee de gearchiveerde bestanden worden uitgelezen niet goed interpreteert. We hebben geprobeerd deze beperkingen zo goed mogelijk te ondervangen, door na de kwaliteitscontrole ontbrekende content alsnog toe te voegen. Echter, een perfecte kopie van de live site realiseren blijft lastig tot webarchiveringssoftware beter om leert gaan met bovenstaande problemen.

Met welke browsers kan ik het webarchief het beste bekijken?

Iedere internetbrowser heeft zijn eigen manier om content uit te lezen en te presenteren. Voor het webarchief geldt dat Firefox de beste resultaten geeft, hoewel het webarchief ook toegankelijk is in alle andere browsers. Houd er echter rekening mee dat er verschillen kunnen zijn.

Welke resolutie kan mijn scherm het beste hebben om het webarchief het beste te kunnen bekijken?

Dit hangt er onder meer vanaf de opzet van de originele website. Wij raden een schermresolutie aan van ten minste 1280 x 800 pixels.