科研动态
北京大学统计科学中心博士生杨莹发表非参数在线估计的研究成果

统计科学中心博士生杨莹在姚方教授指导下,近期在《Journal of the American Statistical Association》(JASA)发表的研究成果实现了对数据流进行核估计非参数回归的可调参在线估计,提升了计算与存储效率,并将其拓展到非平衡离散采样、具有相依结构函数型数据的均值与协方差函数的估计。该研究对大数据分析中的实时数据流在线学习问题做出了新的探索,具有重要的实用价值。

56cdffc5718f423e9049f70d53189754.png


随着信息技术的发展,数据的产生变得越来越迅速,诸多大体量的数据是以数据流的形式在线快速收集的。传统的统计方法用整个数据集训练模型,而在数据流的场景下,无法对整个数据集进行运算,而训练所有历史数据会占据大量内存与计算时间。数据流的这一特点使得常用的非参数回归无法进行最优实时在线更新,其困难来自于实时收集的数据使得最优估计对应的调整参数发生变化,而历史数据已经被丢弃,所存储的基于历史数据的统计量亦无法使用,如图1所示。

4990c4dd3b774ce988a749d1f1c3bdba.png


针对这一挑战,该论文考虑常用的核估计类型的局部多项式方法,提出了普遍适用的最优在线估计,并拓展到非平衡采样函数型数据的均值与协方差函数估计,达到每次更新模型只需计算和存储当前批量的数据,结合所存储的统计量更新调整参数以及相应的估计值,实时输出最优估计结果,显著提高计算与存储效率。该方法的创新点在于所提出的有限动态窗宽的实时更新,在每批数据到达后,根据之前的估计和当前数据,生成L个候选窗宽,其中不仅包含当前的最佳窗宽,还包含用来近似未来最佳窗宽的一系列更小的窗宽值,并计算这些候选窗宽对应的统计量。因此每批数据都对应L组的统计量,根据候选窗宽与新数据加入后最佳窗宽尽可能接近的原则,将不同批的统计量进行结合,得到全局最优的非参数回归估计,如图2所示。

98750af9410c4a6e917fb86cc6da4fbf.png


论文进一步利用动态窗宽的在线更新算法进行实时函数型数据分析,建立了适用于稠密与稀疏观测下均值和协方差函数的在线估计的渐进正态性,刻画了所提出的在线估计方法相对于使用全部数据的传统方法的统计与计算效率的关系:

39fc58b91e724e2d915919cfface6e50.png


即相对统计效率下界与动态窗宽序列的长度正相关(如图3所示),而算法的计算效率与该长度成反比。该方法在制造业实时质量监控、互联网数据实时分析等场景中取得了良好的应用效果,可进一步应用于智能出行、智能制造、物联网等领域。

be9de18d58f0466dbc47fd5ad2823aa3.png


《JASA》为国际统计学界影响最为广泛的顶尖学术期刊之一,该论文的第一作者杨莹为北京大学统计科学中心博士生,预计2022年7月毕业,将入职中国科学院数学与系统科学研究院博士后暨特别研究助理。通讯作者姚方为北京大学讲席教授,任北京大学统计科学中心主任、数学科学学院概率统计系主任,入选国家高层次人才计划。



参考资料:

Ying Yang and Fang Yao (2022). Online estimation for functional data. Journal of the American Statistical Association. Published online, https://www.tandfonline.com/doi/full/10.1080/01621459.2021.2002158