OCR Crowdsourcing macht Sinn

recaptcha.jpg

Ganz ähnlich wie manche Spiele heimlich dafür da sind Bilder vernünftig zu taggen, macht sich reCAPTCHA die Antispam-Methode der Captchas zu nutze und übersetzt so eingescannte Bücher mit der Präzision eines Kommentarwilligen.

reCAPTCHA improves the process of digitizing books by sending words that cannot be read by computers to the Web in the form of CAPTCHAs for humans to decipher. More specifically, each word that cannot be read correctly by OCR is placed on an image and used as a CAPTCHA. This is possible because most OCR programs alert you when a word cannot be read correctly.
What is reCAPTCHA?

Wie das funktioniert? reCAPTCHA nimmt als Captcha zwei Worte, eins zum testen ob der User weiss wo das i-Tüpfelchen auf der Tastatur ist, und eins, dass – so er denn das erste richtig gelöst hat, hilft dem schusseligen OCR zu einem besseren Ergebnis zu kommen. Die Arbeitsstunden die damit generiert werden?

reCAPTCHA generates the equivalent of over 2,000 people working 8 hours per day, 5 days per week on digitizing books.

Wieso hab ich das so lange übersehen? Weil ich irgendwie Captchas bislang blöd fand. Das muss jetzt gründlich überdacht werden. Ich komm erst jetzt drauf, wo “mechanische Türken” den Anti-Spamfilter umgehen, aber selbst dabei Umwandlung und Sammlung prä-digitalen Wissens helfen. Typisch.

About The Author

Editor, Reviewweltmeister, Hobby-SysAd, Druckerflüsterer und Ähnliches.

One Response

  1. Janko

    Lustig daran ist ja, dass die mechanischen Tuerken das “Outsourcen” indem sie einfach die gleichen Captchas in ihre eigenen Websites einbauen, wo dann Porno-Gucker fleissig beim Buecher digitalisieren helfen, um sich ein paar Nacktfotos anschauen zu duerfen …

    Reply

Leave a Reply