Hace unas semanas que tenia pendiente publicar este post, pero quiero compartir con ustedes algo que me sorprendio y me hizo pensar en como una idea se puede convertir en muchos billetes subitamente.
Me entere por la red que Google adquirio reCAPTCHA y dije yo, bueno que tendra de especial esta herramienta creada por un estudiante para que le interesara a Google.
Pero en leer mas explico detalladamente que es y porque le atrajo tanto a Google.Captcha es el acr?o de Completely Automated Public Turing test to tell Computers and Humans Apart (Prueba de Turing p?ca y autom?ca para diferenciar m?inas y humanos).
(fuente: Wikipedia)
Resulta que en la mayoria de formularios que enviamos en internet aparecen estos conjuntos de letras y/o numeros que cuesta un poco de trabajo leerlos. y precisamente esa es la utilidad del sistema que evita que algun sistema automatico llene y envie formularios para hacer spam. Al hacer que estas imagenes sean leidas unicamente por humanos, haciendo imposible que un sistema de reconicimiento de texto los decifre y logre enviar el formulario. Esto evita que haya spam en foros, blogs, emails, etc.
¿Pero? ¿Que es reCAPTCHA? ¿Que lo hace tan especial?
Como ustedes saben existen unos programas para el escaneo de documentos llamados OCR (Optical character recognition) o Reconocimiento Optico de Caracteres. los cuales decifran el texto capturado en imagen por un equipo optico digital, como una camara o un scanner. Pero al igual que los textos en los CAPTCHAS es muy dificil para algunas areas de texto que el programa los reconosca. aparte la programacion es muy dificil ya que la comparacion de una sola letra se tiene que hacer entre miles de pocibles opciones ya que existen miles de maneras de escribir la letra «a» por ejemplo, diferentes tipos de fuentes, diferentes colores de tinta y si a esto le aunamos la calidad de impresion del original, realmente es una tarea dificil para el software y el programador y siempre tendra que hacerce una revision del resultado para estar seguros de que este todo correcto y esta revision debe hacerla un humano.
En el grafico se muestra un troso de un documento escaneado y lo que el OCR cree que dice:
Pues resulta que un estudiante tubo una idea simple, que tal si cortamos en pedacitos los documentos escaneados y que millones de personas de todo el mundo nos digan que esta escrito en cada pedacito y asi podremos tener un reconocimiento fiel de cada palabra.
Y eso es lo que hace reCAPTCHA, el sistema te envia 2 palabras, una para validar el formulario y otra para reconocerel texto . La palabra para validar ya la conoce el sistema y espera que sea correcta para enviar el formulario. La segunda palabra es una palabra nueva escaneada de un documento y que al escribirla el sistema la guardara en la base de datos dandole el valor que tu le hayas dado.
¿Y como sabes si lo que escribiste es lo correcto?
Bueno resulta que ese pedacito de texto se lo envia el sistema a muchas personas y el valor mas comun se toma como correcto.
Y pedacito a pedacito se compilan miles de textos.
Y como saben, Google esta escaneando libros para tener toda la informacion a su alcance y que mejor manera que esta, Ya que el sistema se ofrece gratuitamente a los Webmaster que quieran utilizarlo en sus sitios.
Espero que les haya gustado y si tienen dudas o comentarios no olviden comentarlo . . .