队列数据共享的必要性与可行性
杨羽1, 赵厚宇2, 詹思延1,2,
1. 北京大学健康医疗大数据研究中心, 北京 100191
2. 北京大学公共卫生学院流行病与卫生统计学系, 北京 100191
关键词: 队列; 数据共享; 中国队列共享平台
中图分类号:R195.4 文献标志码:A 文章编号:1671-167X(2018)02-0381-05
Necessity and feasibility of data sharing of cohort studies
YANG Yu1, ZHAO Hou-yu2, ZHAN Si-yan1,2,
1. Center for Data Science in Health and Medicine, Peking University, Beijing 100191, China
2. Department of Epidemiology and Bio-statistics, Peking University School of Public Health, Beijing 100191, China
△ Corresponding author’s e-mail, siyan-zhan@bjmu.edu.cn
Abstract

Cohort study is one of the important epidemiological methods which plays an irreplaceable status and role in etiological study. Using cohort study design, we can accurately and continuously collect genetic and environmental information, and identify and validate omics biomarkers to provide evidences for precision public health and medicine. However, results from a new cohort would not be available for at least ten years, as five years would be needed for funding, planning and enrolment, and another five for following up even the earliest analyses of the most common diseases; results for most cancers would take longer, with an unaffordable budget for many research investigators or institutions. That brings an alternative strategy of using existing cohort studies by sharing data between each other. Data sharing of cohort studies would be beneficial in many ways. Data sharing of cohort studies has the potential to make large samples unattainable in a single study, increase statistical power, enable more accurate and detailed subgroup analysis, increase the generalizability of results. It would also facilitate exchange of experiences and learning from each other, avoid for duplicated research and effectively promote the second use of existing data ( i.e. using old data to discover new results). The data sharing would save staff recruitment, follow-up, laboratory analysis of the cost, with a high cost-benefit returns and economies of scale. Data sharing enables cross-validation and repeated verification across different data. Many international research funding agencies or leading research groups have also reached consensus on the principles and goals for promoting the sharing of medical research data. Due to rapid development of cohort studies in the past decades, China already has the basis for data sharing of cohort studies. Unfortunately, most of the existing cohort studies are self-contained, independent, lack of visibility, with insufficient co-operation and data sharing between each other. The academic value of the existing data collected in these cohort studies have not been fully exploited and utilized so far. Therefore, the China Cohort Consortium is trying to establish a multi-level three-dimensional cooperation and data sharing strategy. We hope that it will encourage researchers from public health, clinical and other related fields to work more closely through providing data management, data integration, data interaction, tools development, data repositories and other functions.

Key words: Cohort; Data sharing; China Cohort Consortium

近年来, 复杂性疾病(例如恶性肿瘤、心脑血管疾病等)逐渐成为现代社会最主要的疾病负担, 并造成巨大的健康和经济损失[1]。复杂性疾病的发生是基于生活方式、环境、遗传的相互作用而导致的, 探讨此类疾病的发病机制已经成为现代病因学研究的重要课题。队列研究是流行病学最基本的分析性研究设计之一, 在病因学研究中具有不可替代的地位和作用。当检验病因假说时, 队列研究可以探讨有害暴露的致病作用, 而基于人群构建的队列(population-based cohort)可以用来研究多种暴露因素和多种健康结局的关系, 且研究结果具有较好的外推性[2], 不仅是解决现代医学一些迫切问题的重要研究手段, 也是转化医学研究的重要基础[3]

1 队列数据共享的必要性
1.1 样本量需求增长迅速

传统的流行病学研究通常是单一项目组收集和整理数据, 而后完成数据分析和文献发表, 研究计划和数据通常仅限于课题组内部使用, 外部无法接触原始数据。这对研究结果的可重复性、可追溯性和研究效率都会造成一定程度的影响[4]。同一问题的不同研究其结果可能相互支持, 也可能相互违背。当同类研究结果不一致时, 很难区分这种差异是不同研究采用不同的方法所致, 还是人群间确实存在真实差异[5], 另外, 样本量也是制约队列研究开展的主要局限之一。由于开展大数量研究对象的队列研究难度很高, 队列研究一般被认为不适用于发病率很低疾病的病因研究[6]

大多数复杂疾病与遗传变异之间仅表现为较弱的关联效应(典型等位基因比值比为1.1~1.4), 如果要确认这类关联, 则需要巨大的样本量支撑。即便用病例对照研究的方式研究单核苷酸多态性(single nucleotide polymorphism, SNP)变异的效应, 也至少需要纳入数千个病例[7, 8, 9]。随着对复杂性疾病病因学研究的不断深入, 目前研究者关注的重点聚焦于基因-基因、基因-环境的复杂交互作用, 研究此类问题往往需要数万乃至数十万的样本量, 且这种需求与日俱增[2, 10, 11, 12]

1.2 队列数据共享的优势

自从2006年英国启动一项针对50万人群队列研究(UKBiobank)以来[13], 包括美国在内的世界各国都在积极建设和维护大型前瞻性人群队列。从实际操作层面来说, 建立和维护大型前瞻性人群队列需要巨大的投入, 要求研究地区具备较好的医疗卫生服务基础和医疗信息化技术力量, 同时也要求研究机构具备相当的生物样本处理、基因测序和数据分析能力。另外, 一个新建立的大型队列需要经过一段相当长的建设和维护时间(至少10年), 才可能获得相关观测变量的结果。例如中国慢性病前瞻性研究项目(China Kadoorie Biobank, 简称CKB项目)从2004年建立, 在中国10个省(区)开展, 共涉及51万余人, 到今年已经持续了13年的时间, 仍在继续投入大量的人力、物力进行队列的随访和维护等相关工作[14]

资金和人力等资源的持续投入极大地增加了新建大型人群队列的难度, 而队列间的数据共享则能够提供另一种具有同等科学性, 且更加高效和高性价比的研究方式[15]。这些优势体现在:(1)可实现单个研究无法达到的大样本量, 增加了统计功效[16, 17]; (2)可以进行更精确和细致的亚组分析[17, 18]; (3)通过在不同人群中的治疗效果、环境、结局研究, 增加结果的可推广性[18, 19]; (4)数据整合推动新的合作研究项目, 促进国家或地区之间的经验交流和相互学习, 减少重复性研究工作[20]; (5)有效促进现存数据的二次利用, 整合旧数据发现新结果[16]; (6)节省人员招募、随访, 实验室分析的成本, 具有很高的成本-效益回报和规模经济效应[21]; (7)数据共享联盟形成的多学科合作可以为研究结果提供更加深入和多元化的解释[21]; (8)能够在不同数据集之间进行交叉验证和重复检验[17, 22]; (9)随着大数据时代的来临, 数据分析能力不断提升, 相同背景的队列间合作已经成为流行病学研究的趋势[23]

2 队列数据共享的可行性
2.1 队列数据共享已成趋势

数据共享最早开始于遗传流行病学和基因组学研究中。1996年基因组学领域的科学家达成共享实验室数据的共识, 使后来的科学家可以利用前人的数据继续相关研究或开展新的研究, 带来的效应是遗传学研究比生物医学的其他领域发展得更快[24]。过去10多年, 越来越多的组织提供了合作网络, 以支持不同研究和生物数据库之间的数据共享, 例如ISBER (International Society for Biological and Environmental Repositories)和BBMRI (Bioban-king and Biomolecular Resources Research Infrastructure)等[25]。2017年7月, 国际医学期刊编辑委员会(the International Committee of Medical Journal Editors, ICMJE)同时在NEJMLancetJAMABMJ等国际顶级医学期刊上刊登了临床试验数据共享声明, 期望共享去标识的研究数据成为常态[26]。许多研究资助机构或合作团体也已经就促进医学研究数据的共享原则和目标达成共识[27], 这将促进数据共享的发展, 也会推动高影响力、高成本-效益回报研究的进展。

目前国际上已经存在采用类似模式运行的大型人群队列项目, 例如欧洲的EPIC (European Prospective Investigation into Cancer and Nutrition)项目就是在欧洲普通人群中研究膳食模式、生活方式、遗传特征与肿瘤等慢性病关系的多中心大型队列研究, 由欧洲10国23个研究中心共同参与, 总样本量达52万人, 覆盖地域广泛、研究人群多样。EPIC由国际肿瘤研究会(International Agency for Research on Cancer, IARC)负责, 协调总部设在法国里昂。IARC负责总体的数据保存、生物样本库的建立和维护, 研究对象的招募、基线调查、随访、采样及样本保存等由各参与中心自行开展, 由于各参与国的国情和基础不同, 包括膳食调查在内的部分研究方法未能完全统一。有资料指出, EPIC对除了膳食以外的其他数据, 并未指定统一的数据保存格式, 而是由各参与中心自行决定[1]。美国国家癌症研究所(National Cancer Institute, NCI) 2007年牵头成立的NCI队列联盟(NCI Cohort Consortium)也是这样一类联合体, 由50多个高质量的队列研究组成, 覆盖了超过700万人群, 其成员发起了40多项研究项目, 发表了近百篇高水平研究报告[28]。在亚洲地区, 也已经有这样的队列共享联合体的存在。亚洲队列联盟(the Asia Cohort Consortium, ACC)是集合了来自太平洋沿岸国家队列研究的一个大型联盟, 包括来自中国(包括中国台湾)、印度、孟加拉国、日本、韩国、马来西亚、新加坡、泰国、美国以及其他国家地区的约50个成员[29, 30]

2.2 队列数据共享的方式

数据协调(data harmonization)是实现队列数据共享的重要方式。数据协调可实现或改善以相似方式收集的相互独立的数据之间的可比性, 以方便后续数据的集成和共享[25]。根据数据协调和集成之前是否有统一的研究计划分为前瞻性数据协调和回顾性数据协调; 根据数据协调或集成中对变量异质性的容忍程度分为刚性数据协调和柔性数据协调[20, 31, 32]。但是, 不管数据协调通过何种方式实现, 任何时候都必须满足两条基本原则[33]:(1)符合任何相关的伦理和法律规定; (2)待整合的单个研究数据之间应该具有足够的相容性。

2.2.1 前瞻性数据协调 在进行数据收集之前, 参与合作的项目组制定统一的研究设计、数据收集工具和程序[20, 34], 因此所有单个研究所收集的变量具有相同的定义、格式, 各研究间变量的一致性高。一旦参与合作的各研究项目达成共识, 采纳相同的、特定的测量方法和标准化的操作程序, 数据协调就已经开始, 收集上来的数据就可以视为标准化的数据进行集成和合并。由于刚性的前瞻性数据协调要求严格一致的研究计划和数据采集方法及程序, 即便这种数据协调方法能够提供标准化的数据, 但是在不同的研究中强行采用相同的数据收集方法和程序非常困难[25]。与刚性的数据协调方式相比, 柔性整合方法对变量异质性具有更强的灵活性, 同一网络下的研究者对于所需何种变量达成共识, 但是允许各研究项目根据各自特定需要采取灵活的数据收集方法, 在数据收集后经过严格的异质性评价, 达到一定程度的同质后参与最后的数据协调。不管是刚性的还是柔性的, 前瞻性数据协调需要采用统一或类似的方案和程序, 因此需要较长的时间和大量资源以产生结果, 例如EPIC项目[35]和Canadian Partnership for Tomorrow Project[36]

2.2.2 回顾性数据协调 相比于前瞻性数据协调, 回顾性数据协调在现有的数据之间进行, 由于在已经建立的研究中, 极少会采取相同的研究设计、数据收集方法和程序, 因此各研究的变量间必定存在异质性, 因而回顾性数据协调只能是一种柔性的数据协调[25]。在整合之前, 对各研究所存储的变量信息进行系统性的严格评价以决定相互之间信息相似性程度进而判断是否可以整合[20, 37]。与前瞻性数据协调相比, 回顾性数据协调中各研究间的数据收集工具异质性高, 整体数据质量受限, 但是该方法实现了对现有数据的二次利用, 时间成本和经济成本更低, 是现有数据共享和整合项目中主流的方法, 例如IPUMS(the Integrated Public Use Microdata Series International Projects)[38]。回顾性数据协调由以下步骤完成[25]:(1)明确研究问题、目的和方案; (2)收集信息和选择要纳入的研究; (3)确定变量并评价数据协调的可行性; (4)处理数据; (5)评价生成的协调变量(集)的质量; (6)获得最终的数据协调结果。

3 我国开展队列数据共享的机遇与挑战

我国已经具备开展队列数据共享工作的基础。我国的队列研究起步虽然较晚, 但发展迅速, 已经取得多项原创性科研成果, 这些队列研究内容包括但不限于传染性疾病、肿瘤、糖尿病、心血管疾病、代谢综合征、精神疾病、出生缺陷、慢性阻塞性肺病、肾脏疾病等多个病种, 所调查的对象包括自然人群、职业暴露人群和特定人群(例如运动员、孕产妇、双胞胎、吸毒者等), 研究地域遍布我国多个省市和地区, 其中更有不少是多中心、多地区联合开展的队列研究。另外, 社会经济发展的水平不断提高、国家卫生医疗体系的完善和人民对疾病防控意识的增强等均对队列研究的开展具有重要的推动作用[39]

我国开展队列数据共享工作仍然会面临一些困难和挑战。首先, 数据公开的程度不足。随着我国科研资金投入的不断增加, 研究人员水平的不断提高, 针对各种研究目标而设计的队列项目不断涌现, 队列研究的数据积累速度很快, 但是由于缺乏统一的公开的信息发布平台, 现有的队列多自成体系、独立存在, 缺乏足够的信息曝光度, 队列研究项目之间的知晓度相对较低, 仅能依靠文献查阅、学术会议甚至相互推荐的方式寻找新的合作伙伴。如果有一个能够自由访问, 且具有一定权威性的合作平台, 协助各个研究团队展示自身的研究特点和数据优势, 发布合作需求, 寻求合作伙伴, 一定能够进一步加速队列研究的发展。其次, 在利用不同项目共享的研究数据进行分析之前, 需要解决队列数据协调的问题。由于原始队列在建立之初的研究目的和解决的研究问题存在差异, 因此使用相同、近似或者完全不同的数据采集和存储方式都是有可能的。即使只是实验检测方法或标准的不同, 都会给数据共享造成困难。因此, 在队列数据共享分析前, 需要进行数据协调, 提高数据的标准化程度, 再根据研究计划进行详细分析。第三, 因涉及到研究者和研究团队的学术贡献和权益, 解决好数据所有权归属和研究利益共享机制的问题将是能否顺利延续数据共享工作的重要一环, 包括研究成果发表时的署名顺序和规则制定等。第四, 数据共享采用中央数据集成管理的方式, 还是采用分布式数据网络协作的方式也是需要考虑的问题。最后, 在开展队列数据共享时必须考虑到参与原始队列研究的调查对象个人隐私保护的伦理问题, 在使用已有研究的数据进行不同于原始队列研究目的的统计分析时, 是否需要或者如何再次获得调查对象的知情同意, 采用何种方式才能在共享研究数据的同时最大限度地保护受试者隐私并满足伦理审查的要求, 都将是亟待研究和解决的问题。

为了探索我国队列数据共享的操作模式, 推进研究数据共享的进一步发展, 北京大学公共卫生学院牵头设计并搭建了中国队列共享平台(China Cohort Consortium), 旨在解决队列数据共享可能遇到的困难和障碍, 为国内队列数据共享提供便利。中国队列共享平台已经拥有独立的网站界面(http://chinacohort.bjmu.edu.cn), 用于队列展示、信息互动、数据管理甚至数据分析等工作。截至2017年底, 该平台已经纳入20个队列。中国队列共享平台的队列数据未来将设立三级共享模式, 从队列信息公开、变量的标准化分类利用和整合队列的建立三个维度进行队列数据共享。

4 结论

面对队列研究中与日俱增的海量样本需求, 通过数据共享利用的方式挖掘既往收集的数据潜在价值, 或集成优势资源建立新型大型队列研究, 在整个医学研究领域已是大势所趋。通过数据协调实现或改善以相似方式收集的相互独立的数据之间的可比性, 将更加方便后续数据的集成和共享。中国队列共享平台通过把已有各个队列资源进行规范化的信息展示, 建立多层次立体化的合作策略和共享机制, 形成包括信息管理、信息交互、工具开发和知识支持在内的多功能信息整合平台, 将为公共卫生和临床研究的发展提供新的合作渠道和数据来源, 形成共享、共建、共生、共赢的队列数据生态系统。队列数据共享模式的探索, 将有助于唤醒沉睡在我国丰富队列研究数据资源内的巨大价值, 为实现我国“ 健康中国2020” 的战略目标提供重要的研究基础和数据支撑。

The authors have declared that no competing interests exist.

参考文献
[1] 熊玮仪, 吕筠, 郭彧, . 大型前瞻性队列研究实施现况及其特点[J]. 中华流行病学杂志, 2014, 35(1): 93-96. [本文引用:2]
[2] 李立明, 吕筠. 大型前瞻性人群队列研究进展[J]. 中华流行病学杂志, 2015, 36(11): 1187-1189. [本文引用:2]
[3] 李立明. 大型人群队列研究调查适宜技术 [M]. 北京: 人民卫生出版社, 2014. [本文引用:1]
[4] Khoury MJ, Lam TK, Ioannidis JP, et al. Transforming epide-miology for 21st century medicine and public health[J]. Cancer Epidemiol Biomarkers Prev, 2013, 22(4): 508-516. [本文引用:1]
[5] Bath PA, Deeg D, Poppelaars J. The harmonisation of longitudinal data: a case study using data from cohort studies in The Ne-therland s and the United Kingdom[J]. Ageing & Society, 2010, 30(8): 1419-1437. [本文引用:1]
[6] 李立明. 流行病学[M]. 北京: 人民卫生出版社, 2015. [本文引用:1]
[7] Zondervan KT, Cardon LR. Designing cand idate gene and genome-wide case-control association studies[J]. Nat Protoc, 2007, 2(10): 2492-2501. [本文引用:1]
[8] Spencer CC, Su Z, Donnelly P, et al. Designing genome-wide association studies: sample size, power, imputation, and the choice of genotyping chip[J]. PLoS Genet, 2009, 5(5): e1000477. [本文引用:1]
[9] Burton PR, Hansell AL, Fortier I, et al. Size matters: just how big is BIG? Quantifying realistic sample size requirements for human genome epidemiology[J]. Int J Epidemiol, 2009, 38(1): 263-273. [本文引用:1]
[10] Newton-Cheh C, Eijgelsheim M, Rice KM, et al. Common va-riants at ten loci influence QT interval duration in the QTGEN Study[J]. Nat Genet, 2009, 41(4): 399-406. [本文引用:1]
[11] Newton-Cheh C, Johnson T, Gateva V, et al. Eight blood pressure loci identified by genome-wide association study of 34, 433 people of European ancestry[J]. Nature Genetics, 2009, 41(6): 666. [本文引用:1]
[12] Repapi E, Sayers I, Wain LV, et al. Genome-wide association study identifies five loci associated with lung function[J]. Nat Genet, 2010, 42(1): 36-44. [本文引用:1]
[13] Watts G. Will UK Biobank pay off?[J]. BMJ, 2006, 332(7549): 1052. [本文引用:1]
[14] Chen Z, Lee L, Chen J, et al. Cohort profile: the kadoorie study of chronic disease in China (KSCDC)[J]. Int J Epidemiol, 2005, 34(6): 1243-1249. [本文引用:1]
[15] Willett WC, Blot WJ, Colditz GA, et al. Merging and emerging cohorts: not worth the wait[J]. Nature, 2007, 445(7125): 257-258. [本文引用:1]
[16] Doiron D, Burton P, Marcon Y, et al. Data harmonization and federated analysis of population-based studies: the BioSHaRE project[J]. Emerg Themes Epidemiol, 2013, 10(1): 12. [本文引用:2]
[17] Fortier I, Raina P, Van den Heuvel ER, et al. Maelstrom research guidelines for rigorous retrospective data harmonization[J]. Int J Epidemiol, 2017, 46(1): 103-105. [本文引用:3]
[18] van der Steen JT, Kruse RL, Szafara KL, et al. Benefits and pitfalls of pooling datasets from comparable observational studies: combining US and Dutch nursing home studies[J]. Palliat Med, 2008, 22(6): 750-759. [本文引用:2]
[19] Hamilton CM, Strader LC, Pratt JG, et al. The PhenX Toolkit: get the most from your measures[J]. Am J Epidemiol, 2011, 174(3): 253-260. [本文引用:1]
[20] Fortier I, Doiron D, Wolfson C, et al. Harmonizing data for collaborative research on aging: why should we foster such an agenda?[J]. Can J Aging, 2012, 31(1): 95-99. [本文引用:4]
[21] Thompson A. Thinking big: large-scale collaborative research in observational epidemiology[J]. Eur J Epidemiol, 2009, 24(12): 727-731. [本文引用:2]
[22] Gallacher JE. The case for large scale fungible cohorts[J]. Eur J Public Health, 2007, 17(6): 548-549. [本文引用:1]
[23] 董文斌, 雷小平. 大数据时代出生队列研究的新趋势[J]. 西部医学, 2015, 27(5): 641-644. [本文引用:1]
[24] Kaye J, Heeney C, Hawkins N, et al. Data sharing in genomics—reshaping scientific practice[J]. Nat Rev Genet, 2009, 10(5): 331-335. [本文引用:1]
[25] Doiron D, Raina P, Raina P, et al. Facilitating collaborative research: implementing a platform supporting data harmonization and pooling[J]. Norsk Epidemiolgi, 2012, 21(2): 221-224. [本文引用:5]
[26] Taichman DB, Sahni P, Pinborg A, et al. Data sharing statements for clinical trials[J]. BMJ, 2017, 357(6): j2372. [本文引用:1]
[27] Walport M, Brest P. Sharing research data to improve public health[J]. Lancet, 2011, 377(9765): 537-539. [本文引用:1]
[28] NCI Cohort Consortium. National Institutes of Health: National Cancer Institute[2017-11-03]. National Institutes of Health: National Cancer Institute [2017-11-03]. http://epi.grants.cancer.gov/Consortia/cohort.html. [本文引用:1]
[29] Chen Y, Copeland WK, Vedanthan R, et al. Association between body mass index and cardiovascular disease mortality in east Asians and south Asians: pooled analysis of prospective data from the Asia Cohort Consortium[J]. BMJ, 2013, 347(3): f5446. [本文引用:1]
[30] Song M, Rolland B, Potter JD, et al. Asia Cohort Consortium: challenges for collaborative research[J]. J Epidemiol, 2012, 22(4): 287-290. [本文引用:1]
[31] Harkness JA, Braun M, Edwards B, et al. Survey methods in multinational, multiregional, and multicultural contexts[M]. Hoboken: John Wiley & Sons, Inc. , 2010: 601-602. [本文引用:1]
[32] Fortier I, Doiron D, Burton P, et al. Invited commentary: conso-lidating data harmonization—how to obtain quality and applicability?[J]. Am J Epidemiol, 2011, 174(3): 261-266. [本文引用:1]
[33] Wolfson M, Wallace SE, Masca N, et al. DataSHIELD: resolving a conflict in contemporary bioscience—performing a pooled analysis of individual-level data without sharing the data[J]. Int J Epidemiol, 2010, 39(5): 1372-1382. [本文引用:1]
[34] Craig CL, Marshall AL, Sjostrom M, et al. International physical activity questionnaire: 12-country reliability and validity[J]. Med Sci Sports Exerc, 2003, 35(8): 1381-1395. [本文引用:1]
[35] Riboli E, Kaaks R. The EPIC project: Rationale and study design. European prospective investigation into cancer and nutrition[J]. Int J Epidemiol, 1997, 26(Suppl 1): S6-S14. [本文引用:1]
[36] Borugian MJ, Robson P, Fortier I, et al. The Canadian Partnership for Tomorrow Project: building a pan-Canadian research platform for disease prevention[J]. CMAJ, 2010, 182(11): 1197-1201. [本文引用:1]
[37] Fortier I, Burton PR, Robson PJ, et al. Quality, quantity and harmony: the DataSHaPER approach to integrating data across bioclinical studies[J]. Int J Epidemiol, 2010, 39(5): 1383-1393. [本文引用:1]
[38] Esteve A, Sobek M. Challenges and methods of international census harmonization[J]. Historical Methods A Journal of Quantitative & Interdisciplinary History, 2003, 36(2): 66-79. [本文引用:1]
[39] 王慧, 陈培战, 张作文, . 我国人群队列研究的现状、机遇与挑战[J]. 中华预防医学杂志, 2014(11): 1016-1021. [本文引用:1]