Milhões de usuários de computadores estão digitalizando o equivalente a 160 livros diariamente com uma precisão superior a 99%, ainda que a maioria deles não saiba que está ajudando nesta tarefa hercúlea.
Captcha útil
O trabalho começou há cerca de um ano, quando pesquisadores da Universidade Carnegie Mellon, nos Estados Unidos, colocaram no ar o reCAPTCHA. CAPTCHA é o nome daquele monte de letras e números embaralhados que se deve digitar para se cadastrar em um site ou para confirmar o envio de um correio eletrônico.
Em vez de ser uma mera medida de segurança que os sites utilizam para evitar a ação de spammers, o reCAPTCHA mostra palavras de verdade capturadas de livros por meio de scanners e que não puderam ser interpretadas pelas ferramentas de reconhecimento de caracteres, os chamados OCR (Optical Character Recognition).
Reconhecimento de palavras
Mas como o programa sabe que o usuário digitou a palavra correta? O sistema funciona assim: o software do reCAPTCHA pega uma palavra conhecida e outra que não foi reconhecida pelo OCR, e apresenta ambas ao usuário. Se o usuário interpretou corretamente a primeira, o programa assume que a segunda também foi interpretada corretamente. O mesmo conjunto é apresentado seguidamente a vários usuários, até que, estatisticamente, ele tenha certeza de que a palavra foi mesmo reconhecida.
Milhares de sites ao redor do mundo já adotaram o reCAPTCHA, que é gratuito. Durante seu primeiro ano de funcionamento, 1,2 bilhão de captchas foram resolvidos e mais de 440 milhões de palavras foram corretamente decifradas. Isso equivale à digitalização de 17.600 livros.
Nenhum comentário:
Postar um comentário