Wat staat hier?

Onwetende webgebruikers helpen oude teksten te ontcijferen

Ziet u wat de computer niet ziet?
Zoom
Ziet u wat de computer niet ziet?

Kunt u bewijzen dat u een mens bent? Wanneer een website u daarom vraagt, helpt u zonder het te weten bij het digitaal toegankelijk maken van oude boeken. Want het herkennen van vervaagde en verwrongen woorden is iets waar computers hun tanden nog steeds op stukbijten.

Internetgebruikers zien ze samen meer dan honderd miljoen keer per dag: korte rijtjes letters die schots en scheef staan. Soms staan er strepen door de tekst of ontbreken stukjes van letters. Tekstherkenningssoftware kan daar niet mee uit de voeten, terwijl mensen meestal zonder moeite overtypen wat ze lezen. Gmail en Yahoo! houden zo ‘spammers’ tegen, die automatisch aangemaakte e-mailadressen willen gebruiken om u ongevraagd te informeren over penisvergrotingen, gewillige bruiden en onvermoede erfenissen. Beheerders van weblogs zetten de lettertaakjes vaak in om te voorkomen dat de reactiekolommen vollopen met boodschappen uit het zelfde genre. De afdeling computerwetenschappen van de Carnegie Mellon Universiteit in Pittsburgh (VS)was al vanaf het begin betrokken bij de ontwikkeling van de lettertestjes. Een paar jaar geleden bedachten de onderzoekers dat er misschien wel meer te halen viel uit deze ‘CAPTCHA’s’ (wat staat voor Completely Automated Public Turing test to tell Computers and Humans Apart). Ze zagen er een uitgelezen mogelijkheid in om het digitaliseren van oude teksten te vereenvoudigen. En inderdaad, schrijven Luis von Ahn en collega’s deze week in Science: met lettercombinaties uit gescande boeken veranderen de piepkleine herkenningstaakjes zomaar in honderden uren nuttig werk. De Amerikanen voorzien inmiddels meer dan veertigduizend websites van tekstfragmenten. Ze gebruiken daarvoor stukjes van gescande pagina’s waarmee de tekstherkenningssoftware zich geen raad weet. Dat zijn op oud, vergeeld papier met half vergane inkt wel 20 procent van alle woorden. Tot voor kort konden zulke missers alleen rechtgezet worden door duurbetaalde menselijke lezers, maar sinds vorig jaar schieten miljoenen nietsvermoedende internetgebruikers te hulp. Hun programma reCAPTCHA vervormt de probleemwoorden nog wat verder en schotelt ze voor aan bezoekers van websites. Maar niet alleen natuurlijk, anders is niet duidelijk of de lezer zijn werk goed gedaan heeft. Daarom worden er altijd twee woorden tegelijk aangeboden, een die al bekend is en een nieuwe. Wie het bekende woord snapt, zal het andere ook wel correct geïnterpreteerd hebben, is de redenering. Maar voor de zekerheid wordt het woord door veel verschillende lezers bekeken. Als voldoende mensen er hetzelfde in zien, komt dat in de gescande pagina te staan. Met dit proces kunnen de onderzoekers wedijveren met betaalde bureaus van proeflezers, bleek bij een test met vijftig oude artikelen uit de New York Times. ReCAPTCHA scoorde 99.1 procent van de woorden goed, net boven de norm die de bureaus zichzelf hebben opgelegd. In het eerste jaar heeft het systeem al 440 miljoen woorden laten kraken – dat is evenveel als er in 17.600 gemiddelde boeken staan. En het gaat steeds harder. Volgens Von Ahn gaan er nu vier miljoen woorden per dag doorheen. De internetgebruikers doen dus het werk van minstens 1500 supersnelle proeflezers, becijfert hij. Zonder dat ze daarvoor betaald krijgen. Wie profiteert er eigenlijk van al dat gratis werk? Tot nu toe zijn dat het archief van de krant The New York Times en het Internet Archive, een non-profitorganisatie die boeken online zet. Dankzij de onderzoekers, en waarschijnlijk ook dankzij u, staan de miljoenen pagina’s tekst niet alleen als foto online, maar zijn ze ook op trefwoorden te doorzoeken. Elmar Veerman Luis von Ahn, Benjamin Maurer, Colin McMillen, David Abraham en Manuel Blum: ‘reCAPTCHA: Human-based character recognition via web security measures’. Sciencexpress, 14 augustus 2008