研究

我们研究的核心是应用数据科学方法,从理论、应用和工具多角度跨学科对生物大数据进行解析。

组学与精准医学

基于公共数据库及合作项目数据,开展以下三方面的多组学研究:1. 寻找新的肿瘤分子标志物。我们开发了非监督机器学习的统计方法及软件工具(Nucleic Acids Research 2021Briefings in Bioinformatics 2022),用以发现肿瘤新亚型及分子标志物,具备更加显著的预后差异。2. 多组学多模态,单细胞和其他组学集成分析(Nucleic Acids Research 2025Cancer Discovery 2021Nature Immunology 2021Nature Communications 2020)。3. 以大语言模型为核心,提升基因功能注释的准确性与通用性(BMC Genomics 2025Bioinformatics 2023Genomics, Proteomics and Bioinformatics 2023)。

图例:MYT1基因附近不同肿瘤亚型的DNA甲基化与组蛋白修饰信号的分布(Nature Communications 2020)。

生物软件和社区建设

生物软件在精准医学、人工智能和生物大数据分析中发挥着基础核心作用。我们开发的软件涵盖数据建模、可视化、注释、教学与开发者工具,在全球范围被科研机构和医药公司广泛使用,具有较强影响力(BMC genomics 2024Bioinformatics 2023Genomics, Proteomics & Bioinformatics 2023iMeta 2022Briefings in Bioinformatics 2022Bioinformatics 2022aBioinformatics 2022bNucleic Acids Research 2021BMC Genomics 2018Bioinformatics 2016aBioinformatics 2016bBMC Bioinformatics 2016Bioinformatics 2014Bioinformatics 2013)。我们将持续面向国际开源社区发布软件,提升国产软件影响力,并推动大规模组学平台的集成与转化应用。

图例:可视化软件示例图。其中展示了复杂热图、交互式热图、以及圈形、希尔伯特曲线和阿基米德螺线可视化布局。

计算几何与应用

空间填充曲线(Space-filling curve)作为一种维度映射工具,可以将一维序列折叠为二维或高维结构,同时保持数据点之间的局部邻近性。 本方向将以空间填充曲线为研究对象,围绕基础数学理论的建立、生物数据的应用和转化平台的开发,系统开展从原理探索到实际应用的完整研究工作(arXiv 2024)。

图例:所有36种 level = 3 的2x2空间填充曲线的结构。

软件生态系统

从开发者视角出发,针对软件生态系统中依赖复杂与传播脆弱等核心问题,原创提出的依赖重量(dependency heaviness)理论方法(Bioinformatics 2022Journal of Systems and Software 2023)。本方向将进一步完善其理论体系,并拓展至多语言生态系统的实证研究与应用。依赖重量能够定量刻画单个父包对子包引入的独占性依赖负担,弥补了现有研究中宏观分析与实际开发实践之间的鸿沟,使依赖研究真正服务于开发者的依赖优化与风险评估。本方向将从应用实践与实证分析两方面展开。首先,开发通用的跨编程语言的依赖重量分析核心软件和在线可视化平台,为全球开发者社区提供直接可操作的依赖优化与生态健康度评估工具。其次,系统比较主流编程语言生态系统的依赖传播模式与演化规律,揭示生态复杂性的共性与差异。

图例:对单个软件包的依赖重量分析。

科学计量学

我们构建了一种新的基于引用富集(citation enrichment)的科学影响力分析框架(Journal of Informetrics 2025),以揭示全球科研体系中的结构性偏好与动态演化规律。从基础理论与应用实践两方面展开研究:首先,建立基于随机引用模型的引用富集度统计理论,以消除科学体量的规模效应并量化科学主体间的真实偏好;其次,基于文献数据库数据系统揭示科学影响力在不同科学主体层面的分布特征以及在时间维度上的演化规律;最后,开发开源引用富集分析软件与可视化平台,实现文献数据分析的自动化、全面化和可复现。

图例:全球72个国家之间生命科学领域的科学影响力偏好性全景图。