Wetenschap17 oktober 2000

Neuraal netwerk helpt filtering

„Door de snelle ontwikkelingen zijn we tot de conclusie gekomen dat internetfiltering beter centraal kan gebeuren dan op een lokale pc. Daarom hebben we de scholen voorgesteld via een proxy-server te gaan internetten”, zegt J. D. van de Geer van Vanenburg Groep.

Een proxy-server is een soort doorgeefluik voor internetpagina's. Aan de hand van een lijst met adressen kan deze computer bepalen of een pagina wel of niet het luik mag passeren. „De proxy-server is op verschillende manieren te gebruiken. Een school kan kiezen voor een witte lijst, bijvoorbeeld de adressen van RDNet-Plus, waardoor de gebruiker alleen naar die adressen kan. Bij een zwarte lijst werkt het andersom: alle adressen zijn toegestaan, behalve degene die op de lijst staan.”

De bijdrage van Vanenburg in het aanbod aan de scholen is het ontwikkelen van een techniek waarmee internetsites met grote snelheid in rubrieken te verdelen zijn. Bij een Indiase afdeling van Vanenburg werken twintig programmeurs aan een neuraal netwerk dat die taak voor zijn rekening moet gaan nemen.

Van de Geer: „Zo'n neuraal netwerk is zelflerend. Je biedt bijvoorbeeld een paar duizend internetpagina's aan –hoe meer hoe beter– die allemaal over hetzelfde onderwerp gaan, bijvoorbeeld over financieel nieuws. Daarna bied je een paar duizend willekeurige pagina's aan. Het netwerk vergelijkt die twee soorten pagina's en leert daaruit welke informatie typerend is voor financiële pagina's.”

Voorlopig doet de computer dit volgens Van de Geer uitsluitend aan de hand van de tekst, want het beoordelen van plaatjes is op deze schaal nog niet mogelijk. „Eerst haalt de computer alle stopwoorden uit de tekst. Daarna worden alle overige woorden teruggebracht tot hun stam, dus de woorden ”liefde”, ”liefhad” en ”lief” komen in hetzelfde bakje terecht. Daarna zoekt de computer naar combinaties van deze stamwoorden binnen een zin en kijkt hoe vaak die combinaties voorkomen. Zo leert het neurale netwerk welke kenmerken specifiek zijn voor dit soort pagina's.”

Voordeel van een neuraal netwerk is dat de nauwkeurigheid instelbaar is: bij 90 procent is de kans op een niet-financiële pagina vrijwel nihil, maar worden er mogelijk relevante pagina's overgeslagen. Bij een instelling van 10 procent ontvangt de gebruiker werkelijk al het financiële nieuws, maar dan zitten er ook pagina's tussen die maar voor een klein deel over geldzaken gaan.

Trainen
Van de Geer benadrukt dat de pagina's die de ClickChoice-community gescreend heeft, heel belangrijk zijn voor training van het systeem. Daarnaast heeft het neuraal netwerk sites nodig die binnen een bepaalde categorie vallen. Vanenburg heeft met het RD afgesproken daarvoor een aantal rubrieken van RDNet-Plus te gebruiken.

„We zijn nu volop bezig met de trainingsfase, waarbij we vijftien tot twintig categorieën gaan hanteren. Eind dit jaar moet duidelijk zijn of het neurale netwerk in staat is grote massa's internetadressen –en dan praat ik over miljoenen– juist te classificeren. De winst die we daarmee boeken is dat we met machinesnelheid duizenden malen sneller kunnen werken dan met mensensnelheid.”