目的:在成年双生子人群中探索与血压指标(收缩压、舒张压、平均动脉压、脉压)存在相关性的DNA甲基化位点。方法:研究人群来自中国双生子登记系统,共476名双生子,问卷调查包括一般人口学特征、生活方式及疾病状况等信息,体格检查包括血压、身高、体重等信息,使用Infinium HumanMethylation450 BeadChip芯片对外周全血进行全基因组DNA甲基化检测。在调整潜在混杂因素的基础上,通过构建混合效应模型在全基因组范围寻找与血压指标存在相关性的DNA甲基化位点,显著性水平为错误发现阳性位点率<0.05。结果:经过数据质量控制最终纳入465名双生子(122对同卵双生子,104对异卵双生子,13对双生子的其中之一),年龄(44.8±13.2)岁,男性多于女性,同卵略多于异卵,目前吸烟和目前规律饮酒者所占比例均大于30%。所有双生子个体均行全基因组DNA甲基化与血压指标相关分析,经多重校正后未发现显著的甲基化位点,但位于10号染色体的cg07761116在3个血压指标(收缩压、舒张压、平均动脉压)相关分析中的 P值相对较小, 提示其可能是一个与血压相关的位点。还有7个位点在两个血压指标相关分析中的 P值较小,所在基因与神经发育、蛋白质稳态、炎症反应等功能相关。结论:没有明确证据支持与血压水平存在相关性的甲基化位点,可能由于样本量不足等原因,可以为后续开展类似的双生子研究提供参考,后续研究可以关注10号染色体上的cg07761116及其他 P值较小的位点。
Objective:To explore the DNA methylation sites correlated with blood pressure (systolic blood pressure, diastolic blood pressure, mean arterial pressure, pulse pressure) in adult twin population.Methods:A total of 476 twins from the Chinese National Twin Registry were selected as the research population. Questionnaires were used to collect demographic characteristics, lifestyle, disease status and other information, and blood pressure, height, weight and other anthropometric indicators were measured. The genome-wide DNA methylation of whole blood samples was detected by using Infinium HumanMethylation450 BeadChip. The DNA methylation sites correlated with blood pressure were analyzed by constructing mixed effect model with adjusting potential confounding factors, and the significant level was false discovery rate <0.05.Results:After data quality control, 465 twins (122 pairs of monozygotic twins, 104 pairs of dizygotic twins, 13 individuals from 13 pairs of twins) aged (44.8±13.2) years were finally enrolled. There were more males and more monozygotic twins, and the current smokers and current regular drinkers both accounted for more than 30%. No significant CpG site was found after multiple testing in the correlation study between genome-wide DNA methylation and blood pressure by using the collected twins. However, the cg07761116 located on chromosome 10 had low P value in the correlation analysis of 3 blood pressure indices (systolic blood pressure, diastolic blood pressure, mean arterial pressure), suggesting that this site might be correlated with blood pressure. The other 7 sites had low P value in the correlation analysis of the two blood pressure indices, respectively, which pointed to genes involved in neurological development, protein homeostasis, inflammatory reaction and other pathways.Conclusion:There is no sufficient evidence to support any DNA methylation site correlated with blood pressure, which may be caused by insufficient sample size and other reasons. This study could provide a reference for subsequent similar twin studies, and subsequent studies can focus on the cg07761116 located on chromosome 10 and other sites with low P values.
血压指标一般包括收缩压(systolic blood pressure, SBP)、舒张压(diastolic blood pressure, DBP)、平均动脉压(mean arterial pressure, MAP)和脉压(pulse pressure, PP)。一个心动周期中的最高压力为SBP, 最低压力为DBP, 每一心动周期中的动脉血压平均值称为MAP, SBP与DBP的差值称为PP, MAP=(SBP+2× DBP)/3, PP=SBP-DBP, MAP与PP分别与外周血管阻力及大动脉弹性功能密切相关, 具有重要的病理生理意义。目前世界卫生组织和我国推荐的高血压定义一致, 即在未使用降压药物的情况下, 非同日3次测量血压, 平均SBP ≥ 140 mmHg (1 mmHg=0.133 kPa)和/或平均DBP ≥ 90 mmHg[1]。患者既往有高血压史, 目前正在使用降压药物, 血压虽然低于140/90 mmHg也诊断为高血压。
高血压作为一种复杂性疾病, 涉及多种遗传、环境因素, 并且基因-环境交互作用也影响高血压的发生。目前认为, 表观遗传学可能是基因-环境交互作用背后的一种机制, 在理解基因-环境-高血压表型的关系上建立了相关联系, 为高血压病因学的研究开拓了思路。DNA甲基化(DNA methylation)是最常见、研究最多的表观遗传现象[2]。近年来, 随着甲基化检测技术由部分位点向全基因组发展, 许多研究对大规模人群的DNA样本进行了全基因组甲基化分析, 已发现的甲基化位点主要作用于以下两条通路:肾素-血管紧张素-醛固酮系统(renin-angiotensin-aldosterone system, RAAS)和肾钠潴留系统(renal sodium retention system, RSRS)[3, 4, 5]。双生子人群由于基因和环境高度匹配, 有助于提高统计效力、节约样本量, 是高血压DNA甲基化研究的宝贵资源[6], 如果双生子之间血压存在差异, 由于基因结构及共享环境因素高度相似, 那么血压的差异很可能是表观遗传现象或非共享环境的差异导致的。我国目前缺少此类研究证据, 因此本研究旨在成年双生子人群中探索与血压指标相关的DNA甲基化位点。
本研究对象来自于中国双生子登记系统(Chinese national twin registry, CNTR), 分布于青岛、江苏、浙江和四川4省市, 根据下述纳入、排除标准共收集双生子476人, 数据收集于2013年, 双生子均签署知情同意书, 本研究经北京大学生物医学伦理委员会审查并通过(批准号:IRB00001052-13022)。
纳入标准:(1)年龄18岁及以上非多胞胎双生子, (2)血压相关指标及DNA甲基化数据完整者。
排除标准:(1)分开抚养的双生子, (2)自报患有肿瘤、冠心病(包括心绞痛、心肌梗死发作、急性冠状动脉综合征等)和/或脑卒中疾病病史, (3)妊娠期妇女。
本研究的问卷信息包括:一般信息(性别、年龄、地区等), 社会经济状况(受教育水平等), 疾病相关信息(患病情况、用药史等), 行为信息(吸烟、饮酒、体力活动、膳食、睡眠等)及其他信息(女性生育史等)。问卷信息由经过培训的调查员面对面访问获得, 其中高血压患病情况及用药史均为自报, 问题是“ 是否曾在区、县级及以上医院明确诊断患有高血压” , 以及“ 是否在近1个月服用任何降血压药物” 。
体格检查信息包括:收缩压、舒张压、身高、体重、腰围等指标, 由工作人员使用统一的仪器测量, 其中血压采用欧姆龙HEM-7200电子血压计测量, 要求间隔2~3 min测量两次血压, 若前后2次SBP/DBP相差大于10 mmHg则需要进行第3次测量, 取最接近的两次测量值的平均值用作数据分析。
双生子卵型信息利用Human Omni ZhongHua-8 BeadChip芯片全基因组基因型检测, 根据基因数据进行鉴定。
双生子的空腹外周全血使用Infinium HumanMethylation450 BeadChip芯片(Illumina公司, 简称450K芯片)进行DNA甲基化检测, 该芯片覆盖485 553个CpG(胞嘧啶-磷酸-鸟嘌呤)位点。外周全血标本储存于-80 ℃冰箱, 经水浴解冻后使用BioTeke全血DNA提取试剂盒(BioTeke whole blood DNA extraction kit)提取DNA。经过电泳和紫外分光光度计测定, 提取后的DNA样本的纯度(
本研究数据采用R 3.4.1统计软件进行统计学分析。利用R软件minfi程序包读取CpG位点的红绿信号IDAT文件, 并转换成CpG位点的β 值(β 值定义为该位点甲基化信号占甲基化和非甲基化信号之和的比例), 再进行样本质控和位点质控[7]。
在进行血压指标与甲基化的相关分析时, 对于自报正在服用降压药的研究对象, 根据既往文献需对其血压值进行如下调整[8]:SBP+15 mmHg, DBP+10 mmHg, PP+5 mmHg, MAP+11.7 mmHg。进行DNA甲基化检测时, 不同的检测平板、实验批次以及操作人员、操作技术和仪器、试剂等实验因素的差异, 会使得到的DNA甲基化数据存在一定的误差, 需要使用代理变量分析方法(surrogate variable analysis, SVA)调整潜在混杂因素[9, 10], 使用R软件sva程序包可生成批次效应等潜在混杂因素的代理变量[11]。
为控制双生子同胞之间的相关性(基因结构及共享环境因素), 本研究采用混合效应模型(mixed effect model, ME)构建回归方程, 以血压指标的lg值作为连续型自变量, DNA甲基化水平作为因变量, 调整潜在混杂因素包括年龄、性别、卵型、双生子出生顺序、体重指数(body mass index, BMI)、吸烟、饮酒、蔬菜、水果、红肉、高盐饮食、体力活动、睡眠时间、教育水平、调查地区以及SVA作为固定效应, 双生子对编号作为随机效应, 使用R软件nlme程序包中lme函数构建如下的回归方程[12]:CpG位点β 值=lg血压指标(SBP/DBP/MAP/PP)+年龄+性别+卵型+双生子出生顺序+BMI+吸烟+饮酒+蔬菜+水果+红肉+高盐饮食+体力活动+睡眠时间+教育水平+调查地区+SVA(以上变量均为固定效应)+双生子对编号(随机效应)。
因甲基化分析位点较多, 需要多重检验校正, 上述分析的显著性水平定为错误发现阳性位点率(false discovery rate, FDR)< 0.05, FDR估计按照Benjamini & Hochberg法[13]。
进行数据分析前需要对甲基化数据进行样本质控和位点质控。
样本质控包括:(1)Illmina公司推荐形成的质控报告图(未发现异常数据); (2)根据450K芯片中65个单核苷酸多态性(single nucleotide polymorphisms, SNP)位点与调查对象已有全基因组基因数据比对, 检查样本污染或加错样本情况, 剔除样本8个; (3)利用MDS(multiple dimension-scale)图检验离群值(未发现离群值); (4)样本检出率(与芯片内置空白对照相比, 某个位点的检出P> 0.05, 则该位点检出缺失, 样本检出率即该样本中检出非缺失的位点数占所有位点数的比例)< 0.99, 剔除样本3个。
位点质控包括:(1)位点检出率(与芯片内置空白对照相比, 某个位点的检出P> 0.05, 则该位点检出缺失, 位点检出率为某个位点在所有样本非缺失的比例)< 0.99, 剔除位点3 081个; (2)CpG位点上含有基因位点, 基因位点在亚洲人群中最小等位基因频率(minor allele frequency, MAF)> 0.05或与其他基因位点交叉[14], 剔除位点41 269个; (3)剔除65个SNP位点。
最终合格样本465个, CpG位点442 836个, 再利用R 软件wateRmelon程序包进行DASEN标准化(控制Ⅱ 型探针的测量偏倚、背景噪音偏倚和芯片间偏倚)[15], 形成待分析的DNA甲基化数据。
质量控制后合格双生子样本465人, 包括122对同卵双生子、104对异卵双生子以及13对双生子的其中之一(1名同卵、7名异卵、5名未知卵型, 这些双生子其中的一个仍然可以作为个体纳入模型中进行分析)。双生子年龄均值为44.8岁(范围18.0~80.9岁), 男性多于女性, 目前吸烟和目前规律饮酒者在CNTR中所占比例均大于30%。另外, 新鲜蔬菜、新鲜水果摄入量和体力活动量呈偏态分布, 大部分研究对象集中在摄入量或体力活动量较低的水平, 为减小偏态分布对结果的影响, 将这3个变量进行五等分后再作为协变量分析, 其他特征描述见表1。
将465名双生子作为个体, 以血压指标(SBP、DBP、MAP、PP)作为连续型自变量, DNA甲基化水平作为因变量, 纳入相关协变量用混合效应模型进行分析, 找出与血压相关的CpG位点。
DNA甲基化研究分析阶段需要利用SVA控制人群分层可能造成的影响, 从本研究的q-q图(图1)可以看出观测P值基本未偏离期望P值, 基因控制因子(genomic control factor, λ )均接近1(λ SBP=1.02, λ DBP=0.99, λ MAP=1.00, λ PP=1.02), 说明血压指标与甲基化相关分析的结果已经较好控制人群分层可能的影响。
用曼哈顿图(Manhattan plot)描述全基因组范围上每个CpG位点与血压指标相关的显著性水平及其所在染色体上的位置(图2)。如果以10-6为P值界限, 在4个血压指标中均未发现满足此显著性水平的CpG位点。
4个血压指标的甲基化相关分析中P值最小位点分别为位于11号染色体NTM基因上的位点cg17090716(P=4.88× 10-6)、位于14号染色体KIF26A基因上的位点cg00016406(P=1.62× 10-6)、位于17号染色体PSMD11基因上的位点cg00459043(P=2.37× 10-6)、位于2号染色体FOXN2基因上的位点cg19376844(P=1.19× 1
4个血压指标的甲基化相关分析P值最小的前10个位点及位置关系等信息见表2。根据表2结果可见, 利用双生子构建DNA甲基化与血压指标混合效应模型, 按照FDR< 0.05的显著性水平, 在4个血压指标(SBP、DBP、MAP、PP)均未发现相关阳性CpG位点, 但在4个血压指标相关分析中, P值最小的前10个位点有8个重叠位点, 重叠的位点信息见表3。
虽然本研究未发现FDR< 0.05的甲基化位点, 但在SBP、DBP和MAP相关分析中, 位于10号染色体的位点cg07761116其相关分析P值均较小, 且随着3个血压指标的增加, cg07761116甲基化水平均降低, 提示其可能是一个与血压相关的位点。
其他7个位点均在两个血压指标的相关分析中P值较小, 所在的基因及其功能简介如下:NTM(neurotrimin)编码的蛋白质可以促进神经突触生长和黏附, C1orf59(HEN methyltransferase 1)编码的产物是一种RNA甲基化转移酶, KIF26A(kinesin family member 26A)编码一种在肠神经发育中起关键作用的非典型驱动蛋白, PSMD11(proteasome 26S subunit non-ATPase 11)编码的是26S蛋白酶体的一种组分, 该蛋白酶体通过去除可能损害细胞功能的错误折叠或受损蛋白质以及不再需要功能的蛋白质而在维持蛋白质稳态中起关键作用, MVP(major vault protein)编码穹窿体复合体的主要成分, BTBD11(BTB domain containing 11)编码的是一种包含BTB结构域的蛋白, 可能与蛋白质的异二聚化活性(protein heterodimerization activity)有关, HCG22(HLA complex group 22)编码的是一种与泛细支气管炎相关的黏蛋白样蛋白。
表观遗传学是高血压遗传研究的新方向, 可解释血压水平变异不能被传统孟德尔遗传定律阐明的部分[16], 已有大量研究证明, DNA甲基化是基因变异影响血压水平的重要调控通路, 目前寻找与血压有关的甲基化位点仍是研究热点。DNA甲基化研究不仅能够帮助揭示遗传和环境对于血压的交互影响作用, 解释高血压发生的机制, 而且相比于基因的不可改变性, 未来有可能通过改变相关的甲基化位点的甲基化水平从而对血压水平进行调控, 对于高血压的干预和治疗也有重要意义。
本研究利用收集到的476名双生子个体进行全基因组DNA甲基化与血压指标相关分析, 经多重校正后未发现血压指标相关阳性甲基化位点, 但本研究中位于10号染色体的位点cg07761116在3个血压指标的相关分析中P值相对较小, 提示其可能是一个与高血压发生相关的位点。本研究其他相关分析中P值较小的重叠位点所在基因的功能主要与神经系统和炎症反应有关。目前有研究表明高血压与精神紧张有关[17], 机体免疫功能紊乱是高血压的发病机制之一[18]。2013年一项全基因组关联研究(genome-wide correlation studies, GWAS)的meta分析发现了数十个与高血压和血压相关指标之间关联具有显著性的基因位点[19], 其中部分基因的功能与神经系统和炎症反应有关, 而既往的甲基化研究也有发现神经系统[20]和免疫系统[21]相关的基因上的CpG位点与高血压存在相关, 炎症相关基因的甲基化可通过调控炎症通路导致血压的改变。
利用甲基化芯片对全基因组位点进行研究, 因其高覆盖性以及相对经济, 成为目前甲基化研究的重要检测手段, 但是因为研究一次性关注的CpG位点较多, 可能会发现虚假相关, 所以为了控制整体假阳性必须进行多重校正。既往也有较多研究应用450K芯片发现了许多甲基化位点在高血压组与对照组间存在差异, 但经多重校正后, 并没有满足显著性水平要求的阳性位点。本研究采用常用的FDR标准下的Benjamini-Hochberg校正方法, 其前提假设是所有多重比较的位点都是阴性的(即没有差异), 而且位点间的关系是独立的, 这显然过于严格, 但即使存在一些待解决的问题, 多重检验校正仍是必须进行的一步, 以防止对假阳性位点不必要的验证及探索。
本研究的主要优势在于:(1)针对中国双生子人群在全基因组范围内进行血压与DNA甲基化相关研究, 虽然经过多重校正后未能发现阳性位点, 但提示某些位点可能与血压存在相关; (2)样本量充足, 共收集476名双生子个体, 该样本量在全球双生子甲基化研究中属于前列; (3)既往甲基化研究多采用一般人群, 本研究采用双生子这一天然匹配人群, 能更好地控制遗传因素的影响; (4)制作了标准化的现场操作手册和现场模拟视频, 调查人员经过了统一培训, 确保收集到的信息标准、统一、内容真实; (5)研究较充分地考虑了可能影响相关研究的混杂因素, 包括年龄、性别、体力活动、饮食及家庭社会经济状况等, 并且使用了SVA方法调整潜在混杂因素。
本研究的局限性:(1)DNA甲基化水平是具有组织特异性的表观遗传现象, 而本研究仅采用外周血样本进行甲基化检测, 无其他器官组织的DNA甲基化信息, 未来需要进一步验证。但是, 目前有研究表明外周血DNA甲基化水平与其他组织的甲基化水平存在一定相关[8]; (2)本研究仅采用双生子作为研究人群, 可能存在双生子对内研究中过度匹配问题以及双生子人群特有的高血压相关甲基化位点的问题[22, 23, 24], 但在模型中将双生子作为个体分析, 一定程度上减小了上述问题; (3)本研究中并没有收集到完整的食物摄入情况, 因此无法完全控制膳食摄入的影响, 但已经控制了常见的与血压关系较为密切的膳食摄入信息(如红肉、高盐饮食等摄入量); (4)本研究为横断面研究, 只能探索血压与DNA甲基化的相关性, 研究设计上无法确定两者发生的时序, 因此需要后续研究中结合纵向数据继续研究血压与DNA甲基化的关联。
综上所述, 本研究利用双生子人群, 全基因组范围内探索与血压相关的DNA甲基化位点, 虽然没有明确证据支持与血压水平存在相关的DNA甲基化位点, 但本研究作为国内利用较大样本量双生子人群进行的血压与DNA甲基化相关分析, 能够为后续研究提供重要的参考。
The authors have declared that no competing interests exist.
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|