表型组数据信息管理平台(以下简称“大数据平台”)是“国际人类表型组大科学计划”、“可控环境表型精密测量研究设施”等大型科研项目的数据汇交服务平台。平台致力于为多组学、跨平台科学研究建立安全、高效、高质量的数据服务管理体系。
大数据平台自建有符合国家信息安全等级保护三级要求的微模块机房、分级数据存储系统、高性能智算系统,并自主开发部署了跨平台多组学数据汇交平台、数据治理质控流程和数据安全共享应用环境。
大数据平台自2021年建立起已经支持各科研团队共产出了 40余 篇高质量科研成果,成果主要发表在Nature Biotechnology、Nature Cancer、Genome biology、Nature communications、Cancer Research、Advanced science等期刊上 。大数据平台牵头和参与了多项国家、团队标准,并获得2项发明专利授权。
平台作为国际人类表型组项目等项目的数据汇交平台,支持相关的科研项目的对外安全合规共享。平台作为复旦大学遗传资源数据库的一部分,也支持科研项目的人类遗传资源应用申请工作。
数据安全应用资源平台
1.1 信息安全三级等保服务平台
在复旦大学张江校区内部署有独立的符合信息安全三级等保要求的信息化系统。 系统建设有两组具备完整物理安全周界防护的微模块化机房,通过部署防火墙、IPS、上网行为管理系统、数据库审计、日志审计、漏洞扫频、堡垒机、杀毒软件等设备实现了具备三级等保平台能力的服务平台。
|
|
1.2 分级数据存储系统
大数据平台建设有包括热-温-冷三级的数据存储系统,热存储系统为分布式高速混闪存储集群,配备高速RDMA网络,热存储系统总容量超过10PB;温存储系统为中速NAS存储;并配有存储磁带库进行冷存储。同时,平台与复旦大学校级平台CFFF实现了异地高速备份。

1.3 高性能计算集群(HPC)
大数据平台建设有高性能计算集群,平台具有1560核SLURM集群,3个(内存大于等于2TB)胖节点,8卡GPU节点。 并通过与复旦大学校级计算平台CFFF进行联网,具备使用CFFF 1200卡A100 GPU卡的智算能力。
1.4 数据安全应用环境(数据沙箱)
大数据平台自主建设有数据安全应用环境(数据沙箱),沙箱通过使用二维验证、全程监控、数据可用不可下载、数据导出审核等技术管理手段,实现了数据的安全应用。同时,大数据平台在数据安全应用环境中提供相关科研项目的数据对外服务。该沙箱环境收录在“科研仪器案例库”中。

1.5数据安全管理
大数据平台建立了数据脱敏、数据安全应用、数据共享的一系列管理制度。并且依托相关学会建立了覆盖数据分类分级、数据管理和数据应用的系列团体标准,并参与多个国家标准的建设和修订。
服务内容清单

数据汇交与质控分析平台
2.1 数据汇交与数据质控
大数据平台建设有支持多组学、跨平台负责科研项目研究的数据汇交与数据质控联合治理体系。该体系覆盖从样本采集、数据采集、数据汇交、数据整合直至数据共享应用的全流程、多组学、跨平台的数据联合治理体系,实现跨阶段的数据一致性与跨模态的数据可靠性保障。在样本采集与数据生成阶段,该体系以统一的数据要素(CDE)和公共数据模型(CDM)为架构基础,并在实验环节引入标准化质控样本与通用参考物质,以实现平台内部的一致性保证与批次监测;在数据汇交与整合阶段,设置内容对齐检查、版本控制、异常值检测、多元多时空节点质量控制等多重指控环节,确保数据在不同来源、不同时间与不同技术路线下仍保持结构可比与生物学一致性。这种多层级、可追踪、可干预的联合治理体系,有效解决了传统多组学数据治理中数据一致性和可靠性的问题,为大规模、长周期、跨平台的队列研究提供了可复制、可推广的治理范式。

2.2跨组学数据分析平台
分析平台支持多种跨组学联合分析,范围包括支持心血管系统疾病领域,肿瘤心血管系统疾病的发生与发展,涉及遗传、分子、细胞及病理等多个层面的复杂相互作用。目前,单一类型的数据难以全面揭示其背后的生物学机制。因此,心血管研究的跨组学数据分析平台,旨在对基因组、转录组、蛋白组、代谢组及影像学等不同来源的数据进行系统整合与联合分析。运用生物信息学与统计计算方法,阐明从基因变异到最终临床表型之间的功能联系路径,深入探索其病理机制,识别关键调控分子与潜在靶点。

服务内容清单

团队简介

徐志鹏
复旦大学人类表型组研究院
数据信息管理平台负责人
徐志鹏,高级工程师,复旦大学人类表型组研究院院长助理、表型组精密测量平台执行副主任、数据信息管理平台主任。长期从事信息化和数据管理工作,致力于解决大型科研项目中的数据管理、数据共享工作。承担国家和上海市多个大型科研项目中的数据安全、数据管理工作。复旦大学校级智算平台CFFF管理委员会委员,上海市生物信息学会信息安全委员会秘书长。

郁颖
数据信息管理平台专家
数据质控小组负责人
表型组研究院核酸平台负责人
专注于多组学数据在跨平台与跨批次场景下的一致性与可比性保障。主要负责标准物质与桥接样本体系的构建与优化、批次效应校正方法的实施落地,以及全过程数据质控机制在大数据治理中的嵌入。参与研发并推广“Quartet”通用标准物质体系和 SRR批次效应校正方法,并将其在多组学真实应用场景中成功实现工程化落地。在科研成果方面,以第一或通讯作者(含共同)在 Nature Biotechnology、Nature Cancer、Nature Protocols、Nature Communications、Genome Biology、Nucleic Acids Research等国际权威期刊发表多篇论文,其中受邀在 Genome Biology发表大型组学项目批次效应评估与消除方法的综述文章;同时主持国家重点研发计划课题、国家自然科学基金青年项目及上海市浦东新区“明珠计划”菁英人才项目等多项研究,为平台形成稳定可复制的多组学数据质控体系提供核心方法支持。

余孟瑶
复旦大学人类表型组研究院
心血管疾病多组学整合专家
复旦大学人类表型组研究院青年研究员,硕/博导,致力于心脑血管疾病致病机制及靶点研究。已在心血管领域知名期刊发表论文24篇,其中以第一或通讯作者在心血管领域知名期刊发表文章11篇,包括Circulation Research、European Heart Journal、Information Fusion、Science Translational Medicine、JCI insight等,获国际同行的高度认可和积极评价。主持国家和省部级项目5项,包括国自然青年、面上项目、科技部重大专项及上海市青年英才项目等。
合作咨询: 徐老师 xuyw@fudan.edu.cn |







