Wetenschap | 29 augustus 2000 |
Zoekmachines bestrijken maar fractie van wereldwijde webInternet 500 keer groter dan gedachtDoor S. M. de Bruijn Hoe groot is het internet? Statistieken over de grootte van het wereldwijde web zijn bedrieglijk. Want wat is een website precies? Wat zegt het aantal van 2,1 miljard internetpagina's? Sommige pagina's tellen maar twee regels, andere 2 miljoen. De beste maat is het aantal letters of bytes: een aan twee kanten bedrukt vel A4 telt zo'n 1000 letters en meet dus 1 kilobyte. Volgens recente schattingen omvat internet op dit moment zo'n 20 terabyte aan informatie (dat is 20.000 gigabyte ofwel 20 miljard kilobyte). Om dat allemaal op cd-rom te persen zijn er 28.000 stuks nodig, geprint op A4 levert het een stapel op van 2 kilometer hoog. Hoe immens dat ook klinkt, het blijkt nog maar de buitenste schil van internet te zijn. Vorige maand publiceerde het Amerikaanse bedrijf BrightPlanet dat zich onder de oppervlakte nog een onafzienbare brij van informatie bevindt, honderden keren meer dan tot nu werd aangenomen. BrightPlanet spreekt over het deep web, met een totale omvang van 7,5 petabyte (7500 terabyte ofwel 7,5 miljoen gigabyte). Zoekmachines Waar bestaat dat verborgen deel van internet uit? BrightPlanet zegt dat het vooral om archieven en databases gaat die niet rechtstreeks door een zoekmachine gelezen kunnen worden. Ook een zoekmachine heeft zo z'n zwakke kanten. Stel dat iemand via Yahoo! een van de bekendste op speurtocht gaat naar alle schrijfsels van of over Smytegelt, dan vindt hij zes websites. Dat de catalogus van de Koninklijke Bibliotheek alleen al 170 keer Smytegelt vermeldt, ontgaat Yahoo! ten enenmale. Logisch, want om die te vinden moet de zoekrobot naar de website van de KB en in het zoekraam catalogus de term Smytegelt invullen. Ook de 117 artikelen in het archief van het Reformatorisch Dagblad ontsnappen aan de aandacht van Yahoo! Zo bestaan er wereldwijd naar schatting 100.000 websites die verhoudingsgewijs veel meer kwaliteit bevatten maar die relatief onbekend zijn bij het grote publiek. Meestal betreft het de archieven van overheidsinstellingen, universiteiten, bedrijven en onderzoeksinstituten. Samen bevatten die databases 550 miljard pagina's. Het aantal groeit met 7 miljoen per dag, en het grootste deel daarvan bevindt zich in dit deep web. Het grootste archief dat BrightPlanet aantrof, is de site van het Amerikaanse National Climatic Data Center, met 366 terabyte aan klimaatgegevens, twintig keer zo veel als het totale 'oppervlakkige' internet. Hoewel het bedrijf nog maar een voorlopige inventarisatie heeft gemaakt, blijkt dat de databases in verreweg de meeste gevallen, 97,4 procent, vrij toegankelijk zijn. Alleen... de internetter moet weten dat ze bestaan, en daar komt hij via de zoekmachines niet achter. Vaak betreft het geen 'gewone' internetpagina's, maar ontstaan ze pas op aanvraag van iemand die de database raadpleegt, de zogenaamde dynamische pagina's. Wandelkaart Want wat heb je aan zo'n zee aan informatie als je er niet in kunt zoeken? 7500 terabyte laat zich vergelijken met een bibliotheek met pakweg 50 miljard boeken. Daarvoor is 640.000 kilometer boekenplank nodig, bijna heen en terug naar de maan. Dat is 750 keer groter dan de grootste bibliotheek ter wereld, de Amerikaanse Library of Congress. Wat moet je dan beginnen zonder catalogus? Om die overvloed aan informatie te ontsluiten, heeft BrightPlanet software ontwikkeld die enerzijds via de gewone zoekmachines speurt, maar tegelijkertijd in een deel van de archieven grasduint. Het programma LexiBot kijkt voorlopig in 'slechts' 600 databases, maar BrightPlanet heeft zelf al toegang tot 20.000 websites en streeft ernaar alle 100.000 archiefsites via LexiBot toegankelijk te maken. Dat is lastiger dan het lijkt, omdat veel databases hun eigen zoektaal hanteren. Zoeken in zo veel databases tegelijk kost veel rekentijd, daarom is het niet mogelijk om LexiBot eenvoudig via internet te raadplegen. Wie het programma wil gebruiken, moet het eerst downloaden, waarna het echte speurwerk gebeurt vanaf de eigen computer. Afhankelijk van de snelheid van de internetverbinding duurt een doorsnee zoekopdracht enkele minuten tot anderhalf uur. Paulsen: Dit is duidelijk niet bedoeld voor oma die op internet zoekt naar een recept voor chocoladecake. Het bedrijf verwacht zijn software vooral te slijten aan bedrijven en wetenschappers die het onderste uit de kan willen hebben. LexiBot kost 90 dollar, maar de eerste maand is het gebruik ervan gratis. Ruis Samengevat: LexiBot is voor de fijnproevers een waardevolle aanvulling, al blijft het wachten op de verdere ontsluiting van de vele databases. Groot pluspunt is dat het programma de gebruiker niet lastigvalt met storende en soms aanstootgevende advertenties. Overigens maken ook Google en AlltheWeb zich daar niet schuldig aan, maar die zoekmachines zijn door hun grootte relatief slecht op de hoogte van het laatste nieuws. Een aanrader op nieuwsgebied is de zoekmachine Moreover. | Relevante websites:
Het bedrijf dat het "deep web" in kaart heeft gebracht, heet BrightPlanet:
Een uitgebreide handleiding over zoeken op internet:
Een veertig pagina's tellende beschrijving van het "deep web": |