您需要 登录 才可以下载或查看,没有帐号?注册
x
看到这个题目,我脑中蹦出的第一个答案就是它,一项大概让所有机器人和大部分人类都痛恨的发明:验证码。准确地说,今天我要说的并不是广义的验证码-CAPTCHA,而是reCAPTCHA)
说它看起来很蠢我想大家都会同意吧,第一,丑;第二,原理看起来简单粗暴,一点不“高级”。
那为什么又说它精妙无比呢?
先从CAPTCHA说起吧,这是"验证码"的英文名,然而它并不是一个现成的单词,而是一个缩写,什么缩写呢?深吸一口气,跟我念:
"Completely Automated Public Turing test to tell Computers and Humans Apart"。
翻译成中文就是"全自动区分计算机和人类的图灵测试",一下变得高大上了有木有?
相比于图灵测试,在CAPTCHA中,人类和机器的角色其实是互换了的,所以它其实属于一种反图灵测试(Reverse Turing test),显得更高大上了。
典型的CAPTCHA就是像下图这样,给你一张包含扭曲文字的图片,再给你一个文本框用来输入。
接下来就轮到我们的主角Luis von Ahn大神出场了,CAPTCHA这个名字就是他提出来的。
他出生于1978年,2000年在杜克大学获得了数学学士学位,随后就进入卡内基梅隆大学读博士。
2003年,他和几个人一起提出了“CAPTCHA”这个提法,但验证码本身是由其他人在更早的时候发明的。
验证码虽然显得又“丑”又“蠢”,但在区分人类和机器这件事上非常有效,所以从被发明开始,每天都在被全世界的网站成千上万次的使用,防止恶意的攻击、注册、刷票、抽奖等等。
Louis大神就想了,每天有这么多人要一遍遍地去识别一串串字符,能不能把这些脑力、时间利用起来、集合起来做一些有意义的事呢?
于是,2007年,他创立了reCAPTCHA。
跟CAPTCHA相比,reCAPTCHA看起来区别并不大,如图:
外观上最大的区别,就是待识别的单词从一个变成了两个,然而这恰恰是reCAPTCHA的玄机所在。
这个玄机就是,两个单词中的一个,来自于某个真实文本的扫描,而这个文本,可能由于文本的年代/印刷质量或者扫描质量的关系,很难用OCR技术准确识别出来。
而reCAPTCHA做的事情,就是让每一个“挑战”这个验证码的人其实都当了一次“人肉”OCR,“帮助”电脑识别文本的内容。
读到这里你也许发现问题了,既然电脑都认不出来那个词是什么,那么它怎么知道你输入的对还是错呢?
2个单词中的另一个就发挥作用了,这个单词是reCAPTCHA知道答案的,如果这个单词你的输入是正确的,那么系统就认为你输入的另一个单词的也是正确的,当然,还会通过把词条分发给多人等办法来交叉验证保证准确率。
通过这种牛B的众包(Crowdsourcing - Wikipedia),reCAPTCHA在短时间内帮助纽约时报数字化了从1851年至今的所有文章,共计1300多万篇,非常完美地诠释了当时reCAPTCHA的slogan,"Stop spam,read books",也就是上面reCAPTCHA的截图中右下角的文字。
就问你,酷不酷,妙不妙?
“Stop SPAM, Read Books.”
|