科研动态
北大数学科学学院/统计科学中心席瑞斌教授团队连续发表4篇文章

近日,北京大学数学科学学院/统计科学中心席瑞斌组连续在《Cell Research》,《Nature Genetics》, 《Bioinformatics》 发表4篇文章。


一、《Cell Research》发表的文章中,席瑞斌与中国医学科学院刘芝华教授及北京大学詹启敏院士合作分析了500多例食管鳞癌全基因组测序数据。席瑞斌主要负责基因组数据的生物信息分析。文章鉴定出了新的显著突变基因,发现NFE2L2基因突变以及肿瘤变异负荷与病人生存不良预后显著相关。文章还首次对食管鳞癌做出了分子分型,即NFE2L2突变型,RTK/RAS/MYC扩增型以及双阴性,并发现食管鳞癌分子分型与病人预后高度相关。席瑞斌是文章的共同第一作者,刘芝华教授,詹启敏院士以及李彦宏先生为文章共同通讯作者。《Cell Research》为生物医学顶级杂志,影响因子17。


文章地址:https://www.nature.com/articles/s41422-020-0333-6


二、《Nature Genetics》发表的文章中,席瑞斌与哈佛大学PeterPark 组合作研究了2000多例肿瘤基因组中的染色体碎裂现象,席瑞斌是文章的第三作者,主要负责探测染色体碎裂算法的开发。染色体碎裂现象在2011年首次报道【Cell, 2011, 144:27–40】,与传统癌基因组的逐渐进化模型不同,此现象的发生说明癌细胞很可能在一两次细胞的危机中,突然大规模的获得了很多的结构变异。席瑞斌教授及其合作者基于测序数据发展了探测染色体碎裂的工具ShatterSeek,并将此算法大规模的应用到了全癌种的基因组分析(此工作已由NatureGenetics接收)。吃惊的发现染色体碎裂发生的频率远比之前估计的高,说明染色体碎裂可能是肿瘤发生发展的主要机制之一,我们还发现染色体碎裂与肿瘤基因组异倍体现象,TP53变异等多种常见肿瘤变异现象相关。《Nature Genetics》为生物医学顶级杂志,影响因子25。


文章地址: https://www.nature.com/articles/s41588-019-0576-7


三、《Bioinformatics》发表文章中,席瑞斌及其合作者研究了菌类基因组的拷贝数变异问题。《Bioinformatics》是牛津大学出版社旗下的老牌生物信息学杂志,也是生物信息领域的顶尖期刊之一,该杂志注重算法的创新性,侧重跟进基因组生物信息学和计算生物学的新发展,影响因子4.5。


细菌与人类的健康生活密切相关,关于细菌的基因组学研究对疾病的治疗和防控有着重要的参考作用。随着高通量测序技术的发展和推广,细菌基因组学研究产生了大量全基因组测序数据。但由于缺少针对细菌测序数据的分析工具,目前大部分研究使用的仍是人类基因组分析中的常用分析工具,并没有考虑细菌基因组及其测序数据的特点。拷贝数变异是指大片段DNA序列拷贝数的增加或者减少。基于全基因组测序数据探测拷贝数变异的方法主要基于短列密度。席瑞斌组首次发现细菌的全基因组测序数据中广泛存在严重的复制偏差,也即细菌基因组区间的短列密度受到其距离复制起始位点的严重影响。复制偏差严重影响拷贝数变异的检测,造成敏感性不足及大量的假阳性。为解决这个问题,席瑞斌组发展了一个探测细菌基因组拷贝数变异的新算法CNV-BAC,此算法能够校正细菌测序数据中复制起始位置对拷贝数信号造成的偏差,提高拷贝数变异检测的准确性。CNV-BAC可以在github平台下载,https://github.com/XiDsLab/CNV-BAC 。该论文第一作者武林杰是北京大学数学科学学院博士生,席瑞斌为该论文的通讯作者。北京大学统计科学中心博士生王涵及北京信息科技大学夏禹超老师亦为此文章作出了重要贡献。


论文地址:https://doi.org/10.1093/bioinformatics/btaa208


四、在另一篇《Bioinformatics》发表文章中,席瑞斌及其合作者研究了单细胞测序数据的数据填补问题。近年来,单细胞RNA-seq技术的革命性发展使得人们可以高效的在单细胞水平研究细胞的基因表达谱。然而,由于技术的限制,单细胞RNA-seq数据存在很多drop-out,也即很多基因在细胞水平有表达但单细胞RNA-seq测量的表达值为零,此问题对下游分析造成了很多问题。为了解决这个问题,我们基于稳健矩阵分解的技术提出了一种新的单细胞RNA数据填补的方法scRMD。scRMD假设细胞可以划分成若干个子类且同一类的细胞具有相似的表达量,同时假设缺失值的数量相对于真实零表达的数量是稀疏的。基于这两个假设,scRMD提出了一个新的损失函数并且通过ADMM算法有效的进行求解。在多个公开数据集上的表现证明scRMD可以准确地还原缺失值,从而显著的提高差异表达和聚类等下游分析的结果。scRMD可以在github平台下载,https://github.com/XiDsLab/scRMD 。该论文第一作者陈冲是北京大学数学科学学院博士生,目前就职于阿里巴巴达摩院。此论文为北京大学席瑞斌组与邓明华组合作发表。北京大学数学学院吴昌晶,武林杰,王啸辰为为此文章作出了重要贡献。


文章地址:https://doi.org/10.1093/bioinformatics/btaa139