于军 冉文淇 刘松 欧阳赟 11月18日晚7点40分,位于北京的中国大饭店宴会厅C厅,一场由云上贵州大数据产业发展公司坐庄,煮酒夜话“大数据:云里雾里VS云开日见”的高端论坛鏖战正酣,五位在大数据领域卓有建树的“大侠”持舌剑,论道江湖。 先介绍下几位出场人物: “庄主”欧阳赟:云上贵州大数据产业发展有限公司总经理,原西门子中国副总 “大侠”于军:科技部重大科学计划转录组研究首席专家,中国基因届泰斗 “大侠”吴甘沙:英特尔中国研究院院长 “大侠”刘松:阿里巴巴集团阿里云业务总经理 “大侠”赵勇:中国计算机学会大数据专委会委员、中国西部互联网与大数据产业分会会长、前微软集团大数据专家 “大侠”冉文淇:淇河控股董事长、前美国国立卫生研究院、美国国立生物技术信息中心大数据专家 大数据是“黑洞”加“核武器”?! 到底大数据是什么?赵勇的论断可谓惊起四座。 “由政府主导的大数据开发,是黑洞,是核聚变武器,拥有无穷的威力。”赵勇对着欧阳赟微微一笑称,云上贵州公司就是贵州大数据“黑洞”。 “黑洞”?!有这么可怕么?赵勇话锋一转:“黑洞拥有吸纳一切数据的能力,就如宇宙中的黑洞,连光都不能逃脱它的捕捉,而云上贵州公司就好比贵州的大数据黑洞,由政府主导开放整合数据的平台,具备吸纳所有数据的能力,吸纳了数据之后,就进入核聚变的层面,大数据将变成促进发展的‘核武器’。” “大数据有核聚变效应,数据聚合后将产生总量更大的聚合效应,从而爆发核威力。改变这个世界。”赵勇语不惊人死不休,大数据的能量甚至还超过了核聚变,因为数据在使用过程中不会衰减,只会越用越多,越用能量越大。 100万人的基因排序 于军是中国基因排序工程的泰斗,早在1990年中国第一次参与到基因排序工程中之时,于军就是核心人物。 “一个人的基因排序,大约要涉及30亿字节的数据,总量虽然不大,可在当时来看,这个工程非常巨大,按照当时的技术水平,完成一个人基因排序工程需要上万人十年的艰辛工作才能达成。”于军说,一个人的基因排序确实是技术的突破,第一次突破花了13年的时间。现在问题来了:对人类的基因进行排序的目的是什么? “是为了从基因角度攻克各类疾病,一个人的基因远远不够。至少需要一百万人的基因排序,这是不折不扣的大数据。”于军说,随着技术的进步,到了2020年,对一个人的基因进行排序只需要一天的时间,而中国提出的构建一百万人的庞大基因排序数据库,也将成型。 经过100万人基因的比对,科学家运用数据分析的手段,可以从我们基因缺陷中找到罹患各种疾病的原因,癌症、糖尿病、风湿等疾病将从基因大数据的角度获得攻克的可能,医学上的问题从计算机的角度考虑,从数理统计学的角度考虑,这恐怕是人们此前未曾考虑过的。 中国人的病要由中国人来治 冉文淇,贵州人,中学毕业于贵阳一中,可谓是一中骄傲。冉文淇也是基因科学方面的大数据专家,曾经在美国最权威的研究机构美国国立卫生研究院、美国国立生物技术信息中心供职。在美国的数年间,冉文淇深深感受到,医疗大数据研究有很强的地域性,如果仅仅靠美国的研究就想拯救世界,这无疑于天方夜谭。 “比如胃癌西方人很少患,所以几乎无研究,而胃癌又不断侵袭中国人,所以中国必须要建设自己的大数据基因库,通过中国人自己的研究解决中国人的病痛,这是我的执念和决心。”冉文淇铿锵有力的声音,让全场响起阵阵掌声。 “中国的医疗大数据,产生的数据占世界医疗数据的五分之一,是医疗大数据最大的产出国和使用国,可是我们的话语权还远远不够。我们要提供分析共性的基础平台,要培养更多的跨专业人才,让更多的人参与到中国人的基因排序工程中来,中国人的病要由中国人来医治!”冉文淇一语再掀高潮。 大数据是泡沫? 刘松是阿里云的业务总经理,他对现下出现的大数据是泡沫的论断进行了驳斥。 刘松说,不可否认,商业互联网企业最初所积累的数据是商业行为的衍生品,然而随着移动互联网、大数据、云计算三位一体的时代来临。如果说大数据还仅仅停留在互联网企业的角度考虑问题,确实有泡沫的可能,但如果把眼界放得更宽,实际上大数据有对所有行业进行重塑的可能。 阿里巴巴公司2008年所掌握的数据量只有100TB,到了今天拥有数据量达到1000PB,是7年前的1万倍,从数据分析里不断繁衍出新兴的商业模式,不断促进阿里的蜕变飞跃。 地球寒武纪末期时火山大爆发,大量钙质流入海洋,逼迫着动物们需要找到适应钙的方法,从而诞生脊椎动物等等大量的新兴物种。而今天的大数据就好比寒武纪的钙,将直接导致传统行业商业创意大爆发,大数据是源科学,它具备这个能力。 数据生态是什么? 吴甘沙是英特尔中国研究院院长,他对大数据也有着不同旁人的理解。 中国大数据元年是2012年,三年过去,人们对大数据从顶礼膜拜,到感到危机重重。现在发展大数据更重要的是构建大数据生态环境,做大数据生态的强者。 数据生态建设分为三个层面,一是数据源提供数据,二是数据创意者灵犀创造,三是大数据处理分析技术基础设施。 在数据源方面,最重要的是政府开放数据。比如在美国有一家气象数据公司,通过对政府所开放的各种维度的大数据进行分析,可以做到对2.5平方英里极小区域的气候环境预测,从而达到减少灾害,提高农产品产量的作用。所以在三个层面上看,政府开放数据,企业合理的交易数据,将数据源做到能够提供数据至关重要。因为数据必须使用以后才有价值,才能够创造价值,才能成为商品。 云上贵州公司是“能矿公司” 必须承认,去年才成立的云上贵州公司在大数据业界名气响当当,要不怎么可能到京城坐庄组织高手论道呢?可是,云上贵州公司究竟是个什么企业,它是干什么的呢? 欧阳赟的回答简洁明了“云上贵州公司是能矿公司,开发的是大数据矿产资源。大数据矿不是煤矿,是铀矿。那么我欧阳赟就算是矿老板,做的是铀矿生意,目标是制造核聚变。云上贵州平台就是围绕政府数据做文章,打通各个政府部门之间的壁垒,探索数据开放开发,促进众筹众创,最终是数据转化为巨大的能量,创造无法计算的价值。” |