在中国寻找22颗脉冲星

2022-09-27

作者|蓝字

原创首发|蓝字计划

“十年之内,数字计算机将成为国际象棋世界冠军。”

这是1958年,第一代的AI研究者艾伦·纽厄尔(Allen Newell)和赫伯特·西蒙(Herbert Simon)做出的预言。

两年前的1956年8月31日,一批来自计算机、数学、信息学等领域的顶尖科学家齐聚于美国东北部康涅狄格河河谷的达特茅斯学院,共同讨论“人工智能”的定义。这次达特茅斯会议足足持续了一个月,直接促成了日后的“人工智能革命”。AI行业就此诞生。

| 达特茅斯会议的第一代AI研究者

在互联网尚未诞生的年代,第一代AI研究者,就已经畅想着AI革命会帮助人类解决数学、物理乃至日常生活的诸多难题,将人类社会带向更美好的未来。

但AI的发展,并不像想象中那么顺利,甚至有人将它与时髦却无用的炼金术相提并论。

第一次AI浪潮,因为受制于计算机运算能力,陷入低谷;第二次AI浪潮,AI的发展反而远远落后于个人电脑的性能提升。AI行业两度浮沉。

直到达特茅斯会议召开四十年后,超级计算机“深蓝”才终于击败国际象棋世界冠军卡斯帕罗夫。又过了差不多二十年, AlphaGo又击败赢得过14次世界冠军的围棋九段棋手李世石。AI席卷棋盘,碾压人类的智力,却又点亮人类希望——

从国际象棋到围棋,还有更大、更复杂的棋盘让AI驰骋吗?

从脉冲星出击

腾讯优图实验室研究总监汪铖杰没有想到,自己和团队会跟天文学产生联系。过去多年,优图实验室的技术广泛用于肢体动作识别、工业AI质检、人像分割及虚拟背景等。

2020年冬天,他和同事们开了一次头脑风暴会,讨论除了常规工业领域的应用以外,AI还能做哪些事情?

有同事说出了一个令在场大多数人感到陌生的词:FAST。

FAST,全称是Five-hundred-meter Aperture Spherical radio Telescope ,即500米口径球面射电望远镜,坐落在贵州,是国家天文台的重要观测设备,外界一般称之为“中国天眼”。自2016年正式投入运行以来,它已经解锁了不少世界级的成就:观测到宇宙极端爆炸起源证据、发现了迄今为止唯一一例持续活跃的重复快速射电暴……

| FAST,又称“中国天眼”

作为世界上灵敏度最高的望远镜,它带回海量天文数据,如何处理这些数据,一直是个难题,仅脉冲星搜索这个项目的数据一周就约有500TB,大约相当于3000万张信号图。

这个量级的数据,靠人工处理是不现实的。国家天文台助理研究员潘之辰博士曾对着电脑看脉冲星信号图,“是人的极限了,盯着屏幕,很使劲地看”,一天能看一万多张。按照这个速度判别脉冲星信号图,即使每天24小时不吃不喝不休息,也需要1年才能处理完。

| 脉冲星周期信号图,图源受访者

如果有专门的AI技术来帮助天文科学家们识别脉冲星信号,效率或许有质变。

汪铖杰与实验室的研究员们达成了共识——在选出来的十个项目中,FAST排在第一位。国家天文台也盼望AI能带来不一样的东西。

“探星计划”来了,这一次,等待AI的棋盘是宇宙。

但开局便逢难题。训练AI优化需要用大数据“喂”,FAST接收到的信号虽然是海量,但可用于学习的、真的脉冲星的量级也就在100个左右。

样本太小,AI吃不饱,学不会。

优图实验室的探星团队采用了“半监督学习”方法,先用小样本训练AI模型,再让它去分类大量的未标注的数据,反过来利用得到的结果继续迭代优化,就像人脑的学习模式,举一反三。

| 优图的研究员在讨论AI模型设计,图源受访者

噪声干扰是另外一个问题。不同于以往做工业质检时收集到的较为干净的数据,只要锚定一个标准,即可做出判断。脉冲星信号本身就不是千篇一律的,FAST收集到的海量数据中,不仅包含可以简单过滤的无效数据,还有宇宙发出的大量疑似脉冲星的各种噪声。

还有就是效率。AI不仅需要能够筛选出脉冲星,速度还必须快。根据优图实验室的统计,想要找到一颗脉冲星,可能需要处理3000万到1亿张信号图,没有时间慢慢“欣赏”。

| 脉冲星动态谱信号图,图源受访者

优图实验室此前在工业AI质检项目上的经验起了作用。探星计划中是在数以亿计的图片中,筛选出“正确”的答案——脉冲星;工业质检上,则是在良品率在99%以上的流水线上,找到“错误”的缺陷品。信号图筛选和缺陷品检测的底层技术是相通的。

在多方努力下,AI模型得以实现了多次迭代优化,最终达到质变。

对比之前,图片数据处理速度提升了超过120倍——过去人工需要一年的工作,AI不到三天就能完成,数据处理的误报率也下降了98%。

一年过后,“探星计划”交出了首份成绩单:腾讯优图实验室已用“云+AI”帮助FAST新发现了22颗脉冲星,其中包含高速自转的毫秒脉冲星7颗,具有间歇辐射现象的年老脉冲星6颗。

探星计划的成功证明了AI用于基础科学这条路是可行的,AI在宇宙这个棋盘上,又赢了。

被太空训导的AI

探星计划并不是产业力量与基础科学的第一次结合。

1969年7月20日,距离尼尔·阿姆斯特朗(Neil Armstrong)迈出“我的一小步”约122米的月球上空,登月舱内突然传来警报。警报显示,机载电脑可能即将停机,导致登月失败,阿姆斯特朗和登月团队必须在数秒钟内做出关键决定。

此时,38万公里外的地球上,来自IBM的工程师迅速向NASA反馈了他们的判断:机载电脑不会停机,登月可以继续。阿姆斯特朗就此迈出了“人类一大步”。

NASA飞行指挥官吉恩·克兰兹(Gena Kranz)毫不掩饰地指出,“如果没有IBM 和他们所提供的系统,我们就无法登上月球”。在上个世纪60年代,集成电路才刚刚出现不久,无论是最初的真空管计算机,还是后来的晶体管计算机,对于登月任务来说都算得上“庞然大物”。

| 上个世纪60年代的计算机

计算机小型化成为了登月的必然需求。当时的计算机巨头IBM,派出了4000名工程师、研究员、科学家,编写了500万行代码,从软件到硬件上解决了这一难题。

在此之后,第一部大量生产的个人电脑Datapoint 2200出现,第一台商用笔记本电脑IBM 5100出现,人类社会迅速进入了个人电脑的时代。

没有这一次产业与基础科学结合的尝试,很难说家用电脑的普及还要晚多久。

在寻找脉冲星过程中,也让优图实验室收获良多。AI要准确判断数十亿计的海量图片数据,这倒逼工程师对AI性能做更极致的优化。另外,在构建AI模型中涉及到的无监督、异常检测、主动学习的这些技术,都来自对实践经验的改进。这些优化与积累最终都会成为可以复用的经验,又重新用于其他行业。

当然,产业力量与基础科学可以做到的事情,不止是天文,还有更多。

科学家的高空缆车

事实上,AI最早进入的基础科学领域是生物学。

一个简单的蛋白质包含了数百个氨基酸,其空间结构的可能性就高达10的300次方。对于海量信息的处理,恰恰是AI的拿手好戏。斯坦福大学研究团队今年就利用AI技术将DNA测序的速度提升到了5小时,比早前14个小时的记录缩短了超过一半。相较于此前花费数十亿美元的人类基因组计划,如今它的成本仅需3万美元。

| AI测序得出的DNA结构

2009年,威尔士亚伯大学的罗斯·金(Ross King)曾打造了一台“机器人科学家”亚当,与以往由研究人员来设计实验机器作为辅助不同,亚当可以根据算法自行生成实验假设,并利用机身设备进行实验。

它曾被用于检验酵母菌不同DNA片段对最终生成酵母酶的影响——在远超人类科学家的一天1000次试验的速度下,亚当很快发现了三个基因与酵母酶的关联,其中一组被人类科学家复现验证。金教授的团队还研发了一台机器人“夏娃”,利用AI跑实验假说和数据,加快新药物的研究,比如治疗疟疾和其他被忽视的热带疾病的药物。

| 亚当可以利用机身设备自动完成实验

识别昆虫也是AI的拿手好戏。果蝇由于染色体少,突变型多,易培育,是研究遗传和演化的相关实验中最常见的模式物种。但果蝇科内的已描述物种超过4000个,识别起来有一定难度,实验员们需要用显微镜拍下来对不同的果蝇分类。直到AI自动识别软件的加入,实验员拿手机拍张照片就能完成同样的工作。

在化学界,格拉斯哥大学的化学家李·克罗宁(Lee Cronin)在2018年也设计了一个以AI为核心的自动化实验设备。AI会在虚拟空间随即合成任意化学物质,再通过AI连接的真实设备尝试合成,最后还会有验证、修订实验的过程。研究人员希望,这个AI能帮助加速对生命诞生过程的探索。

还有数学。

在前不久的世界人工智能大会上,著名数学家丘成桐就举了一个例子:数学界有一个很出名的问题,就是有限群分类的问题。有限分类由很多数学家共同合作完成,但是整篇文章有几千页纸的证明,100页的证明还可以勉强念完,但是几千页纸的证明很难完成。丘成桐认为,人工智能可以在设计算法模型帮忙了解这个证明有没有缺憾。

他甚至期待,“人工智能能够帮我们了解两个不同的学科,让人类能够结合起来,产生一个新的学科”。

甚至,包括古文字学。

自从1899年金石学家王懿荣在河南安阳发现甲骨文以来,全世界陆续发现的殷商甲骨文已经在5000个字左右,但真正被释读出来的字数仅在1500-2000字之间,连已经破译的甲骨文中,也有一批字的解释存在争议。

| 甲骨文的识别与破译仍是一个难题

以至于2017年,中国文字博物馆甚至斥巨资,以“破译单个甲骨文奖励10万元”的天价,悬赏一批总量近3500字需要释读的疑难甲骨文。

优图实验室的新目标之一,就是和古文字学家们,一同识别出更多新的甲骨文。

AI就像一台永不疲倦的高空缆车,让越来越多的科学家得以攀上一座座原本难以企及的山峰。

能给人类生活带来什么?

今年4月开始,广东珠海金湾区的18个河涌上,多了一个个瞄准水面的摄像头。

它们是目前正在落地的AI环保监管识别系统的重要组成部分。水面上的漂浮物,无论是塑料瓶、泡沫箱,还是树木残枝,系统都会自动识别并一一给予标注,并且可以实现24小时“自动值守”。

| AI正对漂浮物进行识别,图片来源:公众号“珠海金湾”

通过视频系统的AI智能算法,摄像头还具备了主动识别水体颜色变化、异常活动等环境污染问题和隐患,还能自动生成证据链、视频、截图等证据信息。

自上线以来,系统已经识别到4049次水污染风险因素,包括3568次漂浮物污染、474次异常人员活动以及7次水质浑浊事件。

这是为了解决以往城市水体治理中的滞后性与被动性的一次尝试。十四五规划中,珠海的目标是地表水考核断面水质优良比例需由 2019 年的 66.7%上升为 100%。AI的加入,带来了加速达成目标的可能。

用AI机器人辅助人工垃圾分类,以避免环卫工人受伤;监测企业的废气、废水排放情况,以预见污染风险、跟踪隐患整改;智能交通灯,以缓解城市交通拥挤的难题......AI可以让我们的城市变得更好。

| 麻省理工的垃圾分类AI

与此同时,AI也开始在不同行业尝试落地。

前面提到过工业质检AI,知名显示屏生产商华星光电便利用这一技术开发出自动缺陷分类项目,AI识别速度相比人工提升了3-4倍,还能昼夜不停地在生产线上随时发现残次面板,得以节省了1000万元的成本。

医学方面,中山大学附属第一医院、广东省妇幼保健院等全国100多家医院已经开始使用超声AI智能化系统。它可以在产前筛查作出判断,避免严重出生缺陷儿的出生,保障孕妇健康和胎儿的正常发育。类似的AI医学影像分析、癌症筛查,也在尝试克服疲劳对人工诊断的影响,提高准确率。

这和汪铖杰想看到的未来更接近了,“我们希望能够看到AI技术在各行各业里面的应用和落地能力,而且是能够实实在在的为某一个行业带来比较实质性的变化”。

探星计划如今的新目标,是开启对M31仙女座星云的射电信号处理,这也是天文界首次对该星系观测的射电信号进行完整处理和探测。

| M31仙女座星系

除了甲骨文,优图视觉AI的新目标还有“农作物病虫害AI识别项目”——这又是一次新的跨界。

这很像对第一次工业革命精神的致敬——从生活与生产场景中提炼科学,最终反哺社会。马德堡半球实验证明了真空的存在,波义耳给出了波义耳定律,他的助手发明了蒸汽蒸煮器,瓦特改良了蒸汽机,尼古拉·卡诺又在前人的基础上让热力学成为了现代科学的标志。

AI普适化过程中与人的结合、互动、突破,可能带来人类文明的又一次技术革命。