北京大学数学学院概率统计系

科学研究

科研动态

首页>> 科学研究>> 科研动态

艾明要教授团队论文发表在《Journal of the American Statistical Association》

2020/05/25

北京大学数学科学学院、北京大学统计科学中心艾明要教授团队关于大数据最优分布式抽样技术研究的论文"Optimal Distributed Subsampling for Maximum Quasi-Likelihood Estimators with Massive Data"被《Journal of the American Statistical Association》正式接收。《Journal of the American Statistical Association》是美国统计学会的会刊，是目前国际统计学界论文质量最高、覆盖领域最广、发行数量最多的国际顶尖学术期刊之一。

多媒体技术和现代通讯技术的快速发展，大大提高了人们收集和存储数据的能力。随着这些数据不断地以指数级的速度增加，人们进入了大数据时代。数据是信息的载体，如何从数据中提取有用的信息，一直是统计学和数据科学的核心研究课题。这些海量的数据给统计分析带来了新的挑战。尽管大多数统计分析方法可以直接应用于这些大数据，然而由于现有计算机的计算速度和计算能力的限制，进行统计分析时往往耗时很长，甚至陷入计算上的死循环。

对大数据进行统计分析时需要面对两个挑战性问题，其一是数据量过大，无法将整个数据集存入一个计算机中；其二是尽管数据量适中，然而计算耗时过长，无法得到统计分析的结果。为了克服这两个挑战性问题，针对大数据集的统计分析方法大致可以分为如下两类：第一类是所谓的并行计算方法，首先将整个大数据集分成若干个子数据集，对每个子数据集单独计算，最后把这些子数据集的计算结果有机地结合在一起，得到整个数据集的推断结果。第二类分析方法是子抽样方法，从整个数据集中巧妙地抽取一组有效的子样本，仅对子样本进行统计分析得出推断结果，这样可以大大节省计算时间。

子抽样方法的关键是对不同的数据点指定不同的入样概率，也就是说，针对一个统计推断问题，让携带信息量大、能够提高该统计推断准确度的数据点有更高的入样概率。值得注意的是，目前的大多数子抽样研究工作都是基于一些特定的模型，很显然这些模型很难适合一个复杂的大数据集。因而，尽可能降低对全数据集的模型约束，研究更一般估计的抽样技术更具有实用价值。

拟似然估计是估计方程估计中广泛采用的一般估计方法，该方法仅仅要求响应变量的若干阶矩已知，这就大大降低了对响应变量一致性的要求。本论文利用并行计算和分布计算的优势，对存储在不同计算机上的数据集分别抽取子样，将每个子样本得到的估计巧妙地融合在一起，形成全数据集的最优近似估计，解决了大数据背景下通过无放回分布式抽样技术提高拟似然估计精度的问题。

该论文第一作者虞俊是北京大学数学科学学院2019届博士毕业生，现为北京理工大学特聘副研究员。艾明要教授为该论文的通讯作者。第二作者王海鹰是康涅狄格大学统计系助理教授，第四作者张慧铭是北京大学数学科学学院2016级在读博士生。

Yu, Jun; Wang, HaiYing; Ai, Mingyao*;Zhang, Huiming (2020).Optimal Distributed Subsampling for Maximum Quasi-Likelihood Estimators with Massive Data. To appear in JASA.