站长资讯 | 站长常用软件 | 站长工具 | 为奥运祝福!
文章投稿 当前位置:主页>新闻资讯>业界动态>文章:ReCAPTCHA:让恼人的 CAPTCHA 技术造福人类 - 业界动态

ReCAPTCHA:让恼人的 CAPTCHA 技术造福人类 - 业界动态

来源:CHINAZ用户投稿 作者:35公里 发布时间:2008-09-25 阅读次数:  

核心提示:CAPTCHAs是一种恼人的技术,据资料统计,全球用户天天要完成1亿次CAPTCHA测试。ReCAPTCHA是CarnegieMellon大学启动的一个项目,目的是借助CATPTCHA技术将那些残旧图书数字化,据估计,该技术天天可以完成160本书。

该项目目前已经在40000家网站上部署了ReCAPTCHA技术,ReCAPTCHA的基本原理是,对光学字符识别(OCR)软件来说,它们的辨识能力是有限的,尤其是那些印刷不清楚的旧书或残书,而人类可以凭借自己的阅读经验,轻松识别那些OCR无法识别的文字。对这样的文字,人类的识别成功率可以达到99%,而OCR软件只能达到80%。

recaptcha_ocr.png

ReCAPTCHA结合了传统OCR与一个类似Amazon‘sMechanicalTurk的系统。每个单词都先经过两个不同的OCR软件辨识,假如两个OCR识别结果不一致,该单词会被标志为“未识别”,这些未被识别的文字会被送入ReCAPTCHA系统,被制作成CAPTCHA文字让用户识别。

译者注:这里原文并没讲清楚用户如何完成CAPTCHA识别,因为CAPTCHA要求系统本身必须知道准确答案,而现在的问题是系统自己也辨认不出。我猜想其机制应该是这样的,首先,在一开始,用户提供的任何辨认结果,不管是否正确都可以通过,但系统会记录每个用户的辨认结果,最后,等辨认结果累积到一定数量,系统会将多数人一致的辨认的结果作为ControlWord以校验以后的测试。原文中提到,一开始,系统提供一个已知的ControlWord(knowncontrolword),但这个knowncontrolword是如何来的,并没有说明。首先这个knowncontrolword不可能是准确的,否则就不必ReCAPTCHA了,其次,既然ControlWord并不准确,如何判定用户是否通过测试,只有一个办法,就是在一开始,让用户提交的任何辨认结果都通过。

recaptcha_book.png

总体来说,ReCAPTCHA实现了99.1%的成功率,这几乎是让一个人打字,另一个人在旁边辨认的成功率。ReCAPTCHA技术目前基本上仍处于概念期,但开发者认为,该技术天天将能够辨认大约160本书。

该项目的出色之处在于,它利用了那些本来是被浪费掉的人类的脑力。其它类似的项目也基于相同的思想,比如,fold.it,将蛋白质折叠计算转换成一个游戏,而Google的ImageLabeler项目也是借助庞大的用户群的脑力完成对互联网中的图片的辨认。

中文翻译来源:COMSHARPCMS官方网站



文章地址:   http://www.xinasp.comhttp://www.xinasp.com/html/wangzhanyunying/yumingxinwen/20080925/46916.shtml
tag:ReCAPTCHA 恼人 CAPTCHA 技术 造福人类
    评论加载中…
关于站点 - 广告服务 - 联系我们 - 版权隐私 - 免责声明 - 成员列表
© CopyRight 2002-2008, XINASP.COM, Inc. All Rights Reserved 客服QQ:762264 MAIL:QESY#163.COM
浙ICP备06014044号