导读
这是国家科技基础条件平台运行15年以来第一次向社会公布我国人口与健康领域大数据资源,共计发布237个数据集,数据量49.1TB,2.8亿条。
1月4日,国家科技基础条件平台副主任王瑞丹为国家人口与健康科学数据共享平台(以下简称“共享平台”)发布《2016年度国家人口与健康科学数据共享平台科技资源》。
21世纪经济报道记者了解到,这是该平台运行15年以来第一次向社会公布我国人口与健康领域大数据资源,共计发布237个数据集(数据量49.1TB,2.8亿条),包括生物医学、基础医学、临床、公共卫生、中医药学、药学、人口与生殖健康七大类的数据集。
中国工程院院士、中国医学科学院院长曹雪涛表示:“数据难以共享是我国医学健康大数据开发应用的最大瓶颈,不共享就难有应用价值。共享平台首次向社会公开发布平台的部分科技资源,有利于进一步推动人口与健康科学数据共享,促进相关领域的科学研究成果和数据红利得到充分释放,带动生物医学数据资源整合与共享。”
自2015年奥巴马提出精准医疗概念以来,中国也在不断加码精准医疗,而生物大数据的开发对精准医疗的成果落地至为关键。不过,国内生物大数据在科研环节面临标准化、分析转化、伦理等方面的问题,而在落地层面则面临数据不共享等难关。
推动数据共享
资料显示,共享平台始源于2002年的科技部科学数据共享工程,2005年纳入国家科技基础条件平台建设并更名为“医药卫生科学数据共享网”,2009年进入长期运行服务阶段,提升为“国家人口健康科学数据共享平台”。
记者了解到,共享平台的建设历时15年,横跨国家的四个“五年计划”:“十五”至“十二五”期间进行了数据资源建设,包括基础、临床、公共卫生、中医药等;数据库建设,包括生理参数、高血压、传染病、方剂、药物不良反应等;专题服务建设,包括卫生决策、气象医学、脑卒中防控、农村三级网、肿瘤转化医学、传染病预警等。
而在2016年至2020年的“十三五”期间,共享平台将进一步推进主题数据库建设和定向数据共享服务的落地,如心脑血管病和肿瘤等。
中国工程院院士、共享平台管理中心主任刘德培介绍,该平台的数据共享服务方式包括四个方面:面向政府决策和百姓健康提供信息和知识服务;面向科技创新、医疗卫生和健康管理提供基于元数据的数据获取服务;面向健康产业发展和专业人才培养提供数据产品服务;以及面向国家重大工程和重点研发计划提供数据共享技术服务。
如今,共享平台数据内容已涵盖基础医学、临床医学、公共卫生、中医药学、人口与生殖健康和地方医学六大类数据资源,平台的科学数据总量已达到67.76TB,并与10多个国家建立了科学数据共享。
科技部基础司处长陈文君透露,截止至目前,共享平台2012年至2015年服务用户单位总数24447,其中服务企业数量占比最大,共计3429家;此外高等院校2368所;科研院所1287家;政府部门718个,共计支撑政府决策155项、支撑发表论文8284篇、支撑获取专利156个等。
其中,生物学数据资源-NONCODE数据库自2005年建成至今,保持每2年一次大的升级,科研文献总引用量为767次;中国国民体质与健康数据库自2012年以来,已采集受试者血清、DNA和尿样,进行基因组和蛋白质组研究;国家人口健康平台肝肿瘤数据库集肝肿瘤样本、临床信息和基因等数据资源,为重大专项研究提供科技资源。
生物大数据开发痛点多
随着国家“十三五”规划纲要把大数据作为基础性战略资源,全面实施促进大数据发展行动,大数据资源越来越来凸显其巨大潜在价值。
医疗领域亦是如此。2016年8月,全国健康与卫生大会进一步指出要完善人口健康信息服务体系建设,推进健康医疗大数据的应用;2016年10月,“健康中国2030”规划纲要再次强调推进健康医疗大数据应用。
当前十足火爆的精准医疗,则为生物大数据的开发、共享注入了不小的想象空间。
在中国科学院院士、复旦大学副校长金力看来,精准医学中可共享数据包括队列研究数据,即自然人群及专病的队列数据、表型+基因组的罕见病数据、10万人全基因组参比数据库;大数据平台,即10万人临床及组学数据、精准医学大学知识库;诊疗方案,即各种疾病分子分型数据库、各种药物基因组数据库、各种疾病诊疗方案+CDS。
不过,国内医疗数据标准化体系长期缺失,随着医疗信息化的发展,医院内部信息的互联互通问题已逐步得到解决,但医院与医院、医院与社区、区域与区域之间的信息仍不相容,信息孤岛现象依旧存在。
刘德培认为,大数据的标准体系建设是开展大数据应用与服务的前提条件。他透露:“为了保护数据提供者权益,共享平台不断完善人口健康平台科技资源与标准管理系统,自动为每个数据集提供唯一标识,要求数据使用者,使用唯一标识表明数据来源。”此外,该平台还为数据提供者创立了科技资源电子注册证书。
生物大数据在科研层面亦面临多重挑战。金力进一步指出,当前的问题与挑战主要包括高维基因组学数据的处理与标准化、健康医疗数据的标准化、非结构化数据的转换与分析、生物大数据的伦理等。
在关键的基因组参比数据库方面,则出现数据产生能力行业可以承受,但经费严重不足;数据分析能力呈现分布式安排;数据存储、传输能力则面临严重不足、缺乏投入等窘况。
对此,金力认为“PPP模式”或许是解决之道。“但众多企业和科研机构如何共享、分享数据,合作模式如何搭建,依旧有待探索。”
(编辑:张伟贤,如有意见建议请联系:zhangwx@21jingji.com)