统计咨询中心
关于大数据最优分布式抽样技术研究

利用并行计算和分布计算的优势,对存储在不同计算机上的数据集分别抽取子样,将每个子样本得到的估计巧妙地融合在一起,形成全数据集的最优近似估计,解决了大数据背景下通过无放回分布式抽样技术提高拟似然估计精度的问题。

拟似然估计是估计方程估计中广泛采用的一般估计方法,该方法仅仅要求响应变量的若干阶矩已知,这就大大降低了对响应变量一致性的要求。使得一般估计的抽样技术更具有实用价值。

艾明要教授团队关于大数据最优分布式抽样技术研究的论文"Optimal Distributed Subsampling for Maximum Quasi-Likelihood Estimators with Massive Data"被《Journal of the American Statistical Association》正式接收。《Journal of the American Statistical Association》是美国统计学会的会刊,是目前国际统计学界论文质量最高、覆盖领域最广、发行数量最多的国际顶尖学术期刊之一。