验证码与Duolingo的创造者,总有办法让全世界数亿人免费帮他干活

2020-07-19
也许你并没听过Luis von Ahn,但你一定在上网的时候输入过登陆验证码,并在输错的时候心理默念:这是什么鸡肋的步骤!

图片来源IC Photo

编者按:本文来自IDG资本,作者IDG君,创业邦经授权转载。

也许你并没听过Luis von Ahn,但你一定在上网的时候输入过登陆验证码,并在输错的时候心理默念:这是什么鸡肋的步骤!

验证码的问世替网站分辨出了机器和人,解决了垃圾广告和黄牛抢票的问题。背后的创造者Luis是一位天才,他还创建了语言教育平台Duolingo,其估值已达15亿美元。

这两个创新的一个共同特点是——在解决问题的同时满足了另一项需求,实现了资源的有效配置。

于是,因为他的发明,在不知情的情况下,全世界的用户每年免费将230万本书数字化,并在短短几周就把CNN和《纽约时报》数年累积的内容翻译成其他语言。

而Luis创业的初心是为了为人类解决切实问题,这也为他带来了巨大的财富。希望读到这篇文章的你,也能从他解决问题、实现共赢的方式中获得启发。

Luis出生于中美洲危地马拉,后移居到美国。

18岁的他去了北卡罗来纳州的杜克大学攻读数学学位。之后,他又继续在匹兹堡的卡内基梅隆大学学习计算机科学。

成为了计算机科学教授后的Luis发明了“人计算”,简单来说就是人与计算机如何最优协作以解决复杂任务。该领域的开拓性工作让他获得了美国著名的麦克阿瑟研究员计划奖,俗称 “天才的补助金”。

30岁刚出头的Luis就把自己手下的两家公司卖给了科技巨头谷歌,而他所开发的技术被广泛使用。

验证码的进化:人人都做免费校对

验证码的英文缩写是CAPTCHA,全名为全自动区分计算机和人类的图灵测试 (Completely Automated Public Turing Test To Tell Computers and Humans Apart)。

验证码的出现,还要追溯到一段往事。一天,Yahoo的一位主要研究员来到Luis所在的学校开讲座,主题是《我们无法解决的十大问题》。其中一个问题是,一些人使用电脑程序的自动软件创造了上百万的虚假电邮地址,成堆地给人们发送垃圾广告。于是年仅21岁的Luis开始思考如何解决这个问题。

在没有验证码的日子里,网络世界是杂乱无章的。网站无端地被注册上万个空账号,黄牛利用机器把演唱会门票和火车票一扫而空。

但有了验证码,网站就能保证填写表格的是一个真实的人,因为电脑程序无法在图像上识别出扭曲的文字,但是人类可以。

而Luis的思考并不止步于此。

验证码的影响力之大,已经扩展到了全球范围——每天有大约2亿次的验证码输入,而每个验证码平均耗时10秒钟。如果将这个数字乘以2亿,那么全人类每天就在输入验证码上浪费了50万个小时。

Luis对此表示耿耿于怀。于是,他又了一个新想法——既然不能因为网页安全而放弃验证码,那么有什么方法可以利用它来做点好事呢?

人在输入验证码的10秒钟里,大脑精确运行着,这甚至是电脑所无法匹敌的。怎样才能让这10秒钟的工作变得有意义呢?有没有什么目前电脑无法解决,但是可以分割成仅用10秒就能解决的难题呢?

Luis想到了一个点子——书籍数字化。

市面上有很多书籍数字化的项目,包括亚马逊的Kindle和谷歌都有这些需求。从一本旧书开始,首先扫描,相当于把每一页照一张数码照片,这样就有了这本书每一页的文字内容。下一步,电脑需要解读这些照片上的每一个字。

这就涉及到了OCR(Optical Character Recognition)技术,也就是光学字符识别。但光学字符识别的技术并不是万能的,统计显示,五十年前的书,有30%的单词电脑都无法识别。特别对于那些墨水褪色、书页又泛黄的旧书。

于是Luis利用技术摘录出那些电脑无法识别的单词,这样广大用户在网上输入验证码时,就能将其识别出来。

但你要说了,这怎么能知道用户输入的就是正确答案呢?

Luis为此加入了双单词识别。

▍其中一个单词A是电脑无法识别的单词——因为系统不认识这个单词,所以无法判断输入者的答案。

▍另一个单词B是系统已经识别的单词——但系统不会告诉你哪个是已知哪个是未知。

当用户输入两者的时候,如果能拼写正确系统已认知的那个单词B,那么就判断该用户为真人,同时,对于单词A,只要有10个人输入了相同的单词,那么这个词就确定无误了。

你以为你输入的仅仅是验证码,但其实你在免费帮忙录入陈旧的电子书。

成功后再创业:让3亿人学习语言的同时免费做翻译

如今的Luis的新身份,是全球语言学习程序Duolingo的联合创始人。

Luis发现,互联网的大部分语言是英语。YouTube上耶鲁大学的课程、科普视频、Amazon的书籍、新闻网站、博客等等,基本都是英语,这意味着只有懂英语才能使用这些网站。就算世界上有4.37亿人说西班牙语,但西班牙语版的维基百科词条数量也只是英语的20%。

当然,一些网站还有其他几种不同的主流语言,但如果用户那几种也不会,就没办法使用。

那他们怎么办呢?解决办法是——复制粘贴到翻译网站。在今天,机器翻译虽然已经得到广泛应用,但准确度不够高,这个问题可能在未来短期之内都没办法很好地解决。

Luis认为,网站翻译的工作还是需要人来完成。但摆在面前的有几大问题:

  1. 可以找专业翻译人员来做,但是这样成本非常高。就拿翻译维基百科里面有20%的西班牙语内容来说,如果把他们翻译成英语,就得至少五千万美元——这还是针对服务最便宜的外包国家。

  2. 雇人翻译的办法效率非常低,互联网生产内容的速度远高于人工翻译的速度。

  3. 精通双语的人占少数,找到大量精通双语的人非常困难。

  4. 缺少鼓励机制。付钱请人干活是天经地义的,人们有可能愿意免费翻译网页吗?

Luis想,有没有可能找一亿人,免费把网页内容翻译成其他语言?后来他意识到,有一个方法可以一箭双雕——语言学习。

语言学习不仅能让无数人愿意去做翻译练习,同时如果这项学习是免费的的话,还能激励越来越多的人参与。因此,路易斯开始头脑风暴,并与一位名叫塞弗林·海克的人合作,创建了一个几乎完全免费的平台。

Luis拿自己举例,他说,自己的成功主要归功于他很幸运地能够在小时候学英语。虽然不是他的母语,但他的医生母亲坚持让他从小就学英语。当时,中产家庭出身的他在危地马拉城的一所私立英语学校上学。

与大多数危地马拉人相比,他的学习机会太难得了——根据世界银行的数据,该国几乎一半的人口生活在贫困中,其中9%处于极端贫困状态。许多人受教育的机会是非常有限的。

当今,全球有超过12亿人口在学习外语。在美国,每年有超过500万人支付了外语学习软件,人均消费超过500美元。但是,全球范围内,能支付得起500美元的人非常有限。

Luis建立的新网站Duolingo,不仅能让人们免费学习外语,与此同时能让使用者学以致用,进阶翻译。

Duolingo的产品逻辑是这样的:

  1. 提供优质内容的B端网站(纽约时报,BBC,CNN)会付费给Duolingo并提供需要翻译的内容。

  2. Duolingo会在相关语种的语法专家帮助下,将这些内容分解成小模块的学习材料。

  3. 对于新手用户,系统会从网站摘录一些非常简单基础的句子以及句中单词释义,给用户进行翻译,之后用户也能看到别人是如何翻译的。

  4. 当用户学习进度加快后,系统会给出更复杂的句子来供翻译。

这全套流程,都在鼓励用户边学边用,学以致用。

神奇的是,这种学习方法,不仅可以迅速掌握外语,而且让学习更有趣味性。通过Duolingo,人们掌握的是真正的语言使用技巧,编造句子,而不是简单地背单词。

为了让翻译达到专业水准,Duolingo智能地把数名用户的翻译结合起来。

再回到前面对维基百科翻译工程的预计——把西班牙语翻译成英语,是价值五千万美元的工程。但如果有十万名活跃用户,这项工程就可以在五周内完成。如果是一百万活跃用户就只需要八十小时。

而截止至2018年,Duolingo在全球拥有超过3亿用户,是世界上最受欢迎的语言学习应用。

Luis对Duolingo最兴奋的点在于,它为外语教育创造了一个公平的商业模式——为没能力付费学外语的人也敞开了机会。

比起付费来购买外语学习软件或是视频,Duolingo的产品设计者认为,人在学习的过程中,大脑也在创造价值。如此一来,人的语言学习过程就货币化了。用户不需要为语言学习付费,因为他们付出了时间。

后期的Duolingo在用户基群壮大的条件下,又加入了广告运营模式。免费用户(freemium)可以继续免费使用Duolingo软件,但愿意付费的用户可以通过花费7美金的月费升级成为Duolingo Plus 高级用户(Premium)享受无广告浏览。

而现在,Duolingo决策者的野心更大,他们想要参与到更广阔的市场中。对第二、第三世界国家视野开阔的人来说,雅思或托福考试是痛苦的障碍,要花很多费用去学习。因此,Duolingo低调地开发着自己的标准化考试,并被越来越多的机构认可。

本文(含图片)为合作媒体授权创业邦转载,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。