Wetenschap 29 augustus 2000

Zoekmachines bestrijken maar fractie van wereldwijde web

Internet 500 keer groter dan gedacht

Door S. M. de Bruijn
Het internet is veel groter dan tot nu toe werd aangenomen. Terwijl de meeste surfers slechts aan de oppervlakte blijven, blijkt zich daaronder een oceaan aan informatie te bevinden die tot nu toe nauwelijks aangeboord is. Het World Wide Web is honderden malen groter dan de huidige zoekmachines kunnen laten zien. Dat blijkt uit een verkennende duiktocht van een Amerikaans bedrijf.

Hoe groot is het internet? Statistieken over de grootte van het wereldwijde web zijn bedrieglijk. Want wat is een website precies? Wat zegt het aantal van 2,1 miljard internetpagina's? Sommige pagina's tellen maar twee regels, andere 2 miljoen. De beste maat is het aantal letters of bytes: een aan twee kanten bedrukt vel A4 telt zo'n 1000 letters en meet dus 1 kilobyte.

Volgens recente schattingen omvat internet op dit moment zo'n 20 terabyte aan informatie (dat is 20.000 gigabyte ofwel 20 miljard kilobyte). Om dat allemaal op cd-rom te persen zijn er 28.000 stuks nodig, geprint op A4 levert het een stapel op van 2 kilometer hoog. Hoe immens dat ook klinkt, het blijkt nog maar de buitenste schil van internet te zijn. Vorige maand publiceerde het Amerikaanse bedrijf BrightPlanet dat zich onder de oppervlakte nog een onafzienbare brij van informatie bevindt, honderden keren meer dan tot nu werd aangenomen. BrightPlanet spreekt over het ”deep web”, met een totale omvang van 7,5 petabyte (7500 terabyte ofwel 7,5 miljoen gigabyte).

Zoekmachines
De meeste internetters maken gebruik van zoekmachines om informatie op internet te kunnen vinden. Deze zoekmachines zijn niet anders dan krachtige computers die met speciale robots dag en nacht internet afstruinen, de gevonden woorden in een lange lijst plaatsen en onthouden waar ze vandaan komen. Het is algemeen bekend dat zelfs de beste zoekmachines maar 10 tot 25 procent van internet bestrijken. Althans: van het 'oppervlakkige' internet, want het ”deep web” is voor hen zo goed als onbereikbaar.

Waar bestaat dat verborgen deel van internet uit? BrightPlanet zegt dat het vooral om archieven en databases gaat die niet rechtstreeks door een zoekmachine gelezen kunnen worden. Ook een zoekmachine heeft zo z'n zwakke kanten. Stel dat iemand via Yahoo! –een van de bekendste– op speurtocht gaat naar alle schrijfsels van of over Smytegelt, dan vindt hij zes websites. Dat de catalogus van de Koninklijke Bibliotheek alleen al 170 keer Smytegelt vermeldt, ontgaat Yahoo! ten enenmale. Logisch, want om die te vinden moet de zoekrobot naar de website van de KB en in het zoekraam ”catalogus” de term Smytegelt invullen. Ook de 117 artikelen in het archief van het Reformatorisch Dagblad ontsnappen aan de aandacht van Yahoo!

Zo bestaan er wereldwijd naar schatting 100.000 websites die verhoudingsgewijs veel meer kwaliteit bevatten maar die relatief onbekend zijn bij het grote publiek. Meestal betreft het de archieven van overheidsinstellingen, universiteiten, bedrijven en onderzoeksinstituten. Samen bevatten die databases 550 miljard pagina's. Het aantal groeit met 7 miljoen per dag, en het grootste deel daarvan bevindt zich in dit ”deep web”.

Het grootste archief dat BrightPlanet aantrof, is de site van het Amerikaanse National Climatic Data Center, met 366 terabyte aan klimaatgegevens, twintig keer zo veel als het totale 'oppervlakkige' internet. Hoewel het bedrijf nog maar een voorlopige inventarisatie heeft gemaakt, blijkt dat de databases in verreweg de meeste gevallen, 97,4 procent, vrij toegankelijk zijn. Alleen... de internetter moet weten dat ze bestaan, en daar komt hij via de zoekmachines niet achter. Vaak betreft het geen 'gewone' internetpagina's, maar ontstaan ze pas op aanvraag van iemand die de database raadpleegt, de zogenaamde dynamische pagina's.

Wandelkaart
Het bestaan van die verborgen internetpagina's is al veel langer bekend. Vorig jaar schatte NEC dat in totaal slechts 16 procent van internet toegankelijk is voor zoekmachines. De rest heette het ”invisible web”, het onzichtbare web. Zo mogen we het niet langer noemen, vindt Thane Paulsen van BrightPlanet. „Het is niet langer onzichtbaar.” Zijn bedrijf legde zich de afgelopen zes maanden toe op het karteren van het ”deep web”. Dat blijkt veel groter te zijn dan gedacht. Zelfs de grootste zoekmachine, Google, heeft een bestand van 'slechts' 1 miljard pagina's, de helft van het 'oppervlakkige' internet en slechts 0,2 procent van het totale internet. Daardoor verbleekt de betekenis van een zoekmachine tot die van een wandelkaart van Texel voor iemand die een fietstocht naar de Middellandse Zee wil ondernemen.

Want wat heb je aan zo'n zee aan informatie als je er niet in kunt zoeken? 7500 terabyte laat zich vergelijken met een bibliotheek met pakweg 50 miljard boeken. Daarvoor is 640.000 kilometer boekenplank nodig, bijna heen en terug naar de maan. Dat is 750 keer groter dan de grootste bibliotheek ter wereld, de Amerikaanse Library of Congress. Wat moet je dan beginnen zonder catalogus?

Om die overvloed aan informatie te ontsluiten, heeft BrightPlanet software ontwikkeld die enerzijds via de gewone zoekmachines speurt, maar tegelijkertijd in een deel van de archieven grasduint. Het programma LexiBot kijkt voorlopig in 'slechts' 600 databases, maar BrightPlanet heeft zelf al toegang tot 20.000 websites en streeft ernaar alle 100.000 archiefsites via LexiBot toegankelijk te maken.

Dat is lastiger dan het lijkt, omdat veel databases hun eigen zoektaal hanteren. Zoeken in zo veel databases tegelijk kost veel rekentijd, daarom is het niet mogelijk om LexiBot eenvoudig via internet te raadplegen. Wie het programma wil gebruiken, moet het eerst downloaden, waarna het echte speurwerk gebeurt vanaf de eigen computer. Afhankelijk van de snelheid van de internetverbinding duurt een doorsnee zoekopdracht enkele minuten tot anderhalf uur. Paulsen: „Dit is duidelijk niet bedoeld voor oma die op internet zoekt naar een recept voor chocoladecake.” Het bedrijf verwacht zijn software vooral te slijten aan bedrijven en wetenschappers die het onderste uit de kan willen hebben. LexiBot kost 90 dollar, maar de eerste maand is het gebruik ervan gratis.

Ruis
Een snelle test van het programma laat zien dat LexiBot inderdaad in alle gevallen meer boven water haalt dan de gewone zoekmachines. LexiBot geeft bij een speurtocht naar de achttiende eeuwse theoloog Holtius 37 meldingen. Dat is beduidend meer dan andere bekende zoekrobots als Google (21), AltaVista (12), AlltheWeb (9), Northernlight (9), Vindex (6), HotBot (2), Yahoo (3) of Ilse (0). LexiBot haalt alle dubbele vermeldingen weg en controleert tegelijkertijd of de gevonden sites werkelijk bestaan. Bij nader inzien zit er wel wat ruis in de resultaten, bijvoorbeeld een handvol pagina's van andere zoekmachines en archieven die melden dat ze niets over Holtius kunnen vinden. Bovendien blijken er van diverse pagina's allerlei kopiën op internet rond te zwerven. Toch treft LexiBot uiteindelijk een tiental documenten aan die anders verborgen bleven.

Samengevat: LexiBot is voor de fijnproevers een waardevolle aanvulling, al blijft het wachten op de verdere ontsluiting van de vele databases. Groot pluspunt is dat het programma de gebruiker niet lastigvalt met storende en soms aanstootgevende advertenties. Overigens maken ook Google en AlltheWeb zich daar niet schuldig aan, maar die zoekmachines zijn door hun grootte relatief slecht op de hoogte van het laatste nieuws. Een aanrader op nieuwsgebied is de zoekmachine Moreover.

Relevante websites:

Het bedrijf dat het "deep web" in kaart heeft gebracht, heet BrightPlanet:
www.brightplanet.com

Een uitgebreide handleiding over zoeken op internet:
www.completeplanet.com(1)

Een veertig pagina's tellende beschrijving van het "deep web":
www.completeplanet.com(2)