统计咨询中心
新时期统计选题浅见

作者:房祥忠

统计学者需要经常对自己的研究方向进行修正和重新定位,找到最合适的选题,以期能够获得更大的成就。选题需要考虑的是意义、兴趣、基础和能力这四个方面,它们缺一不可。选题的意义一定是我们首先要考虑的问题,意义有大有小之分,并且有多把尺子进行衡量。研究兴趣也是我们进行选题着重考虑的因素,缺乏研究兴趣则会使得我们的研究工作不能长久持续。软件和硬件基础无疑是非常重要的,缺乏基础则会无法保证按时完成研究工作。最后一个是团队的能力,这包括团队的攻坚能力、协作能力和沟通能力,这是研究成果质量的保障因素。其它三个方面都具有个性化色彩,但在选题意义方面大家都会有一定的共识。而意义最重要的方面莫过于国家的战略发展和战略需求。党的二十大报告(以下简称报告)全面描绘了中华民族伟大复兴的宏伟蓝图,提出了对各行各业发展都有重要指导意义的战略方针。在提到建设现代化产业体系时,报告指出“坚持把发展经济的着力点放在实体经济上,推进新型工业化,加快建设制造强国、质量强国、航天强国、交通强国、网络强国、数字中国。”在提到加快实施创新驱动发展战略时,报告指出“坚持面向世界科技前沿、面向经济主战场、面向国家重大需求、面向人民生命健康,加快实现高水平科技自立自强。”这些指导方针都可以做为我们进行选题的依据,把个人兴趣与国家需求相结合,才能做出有重要意义的研究成果。统计学界既有理论方法学者,又有熟悉统计技术和领域知识的专家。利用统计学方法的契合性,根据报告的指导方针,统计学者可以利用个人优势深入不同领域开展有重要意义的研究工作。本文根据个人学习体会,提出了几个自己稍微熟悉的研究方向和研究课题,供大家参考。

先进制造中的统计方法。芯片、纳米、飞船和潜艇无疑是先进制造业中的标志性产品。在其中统计技术的运用和由此推动的统计理论的发展应该是最有意义的统计研究题目,这与报告中的建设现代化产业体系目标相一致。在这些标志性产品的发展过程中,很多统计方法已经被业界使用并取得了丰富的研究成果。可靠性设计与评估、试验设计、统计过程控制、相关和回归分析等传统统计技术在这些领域得到了广泛运用,也取得了很多创新的统计方法。分别以芯片、纳米、飞船和潜艇与统计学作为关键词共同搜索都可以在多个期刊平台上搜索到大量的研究文献。这说明了统计学方法在这些领域发挥的重要作用。另外,新发展起来的统计机器学习算法也越来越多地在这些领域得到运用。这些领域尚有很多挑战难题,传感器等新技术带来了新的数据结构和变量关系,需要创新性的统计分析方法才能加以解决,更多统计学家的参与将会对这些行业产生积极的推动作用。统计学是一门来自于实践,通过抽象化和理论化又回馈实践的科学。也只有通过实践活动,才能有较大机会发现新方法并发展出实用的新理论。

大数据和人工智能中的统计理论。在大数据和人工智能的发展过程中,统计学理论和方法起到了支撑作用。为了大数据和人工智能的理论框架更加完善,需要统计学者更多加入这些领域进行理论研究和应用实践。 实践的观点是马克思主义哲学的核心,实践出真知,实践长才干。通过实践的体会之后,才会产生真知灼见。我们所说的大数据和人工智能中的统计理论,就是基于概率统计严密的理论框架和思想方法把大数据和人工智能的有效算法进行研究和解释,以期发展出有理论保障的更加有效更加稳健的算法。目前来看,个体医疗健康大数据分析、实时交互交通大数据分析、基于医学影像数据的统计学习方法等都是比较前沿的研究课题。

时空数据统计建模与分析。带有时间和空间属性的数据随着传感器和存储设备等现代技术的发展越来越多地展现出来。一个社会中的人、车、船、物等都有时间属性和位置属性。他们的随时间变化的活动轨迹如果记录下来就是一个超大规模的时空数据集。空间统计最早是在地质学中被研究,后来发展到地理学研究,再之后被运用到流行病学研究,现代已经发展到社会经济和众多的科学领域。由于数据的采集和记录更加方便和便宜,时间信息也同时被记录下来,产生了时空数据统计方法。大到航天科技,小到细胞研究,都可以看到时空统计的影子。目前阶段关于智慧城市,智慧交通,环境环保,食品安全,公共健康等都是时空数据统计研究很好的结合点。这些数据往往具有相关性、不重复、稀疏性、维数大等特点,是统计学家很好的用武之地。

多源数据融合技术。目前这种统计技术的需求在多个领域独立地呈现出来。在工业界,产品往往具有继承性,而产品研制费用昂贵,对新产品的评价往往不需要像一个完全没有参考依据的新产品那样评价。但如何评价这样的产品,尚需要严格的理论依据。目前工业界往往融合相似产品数据、仿真数据和新产品研制各阶段数据对新产品进行综合评价,这通常可以节省大量的研制费用。这方面的研究尚在起步阶段,需要统计学家们积极参与,共同建成坚固的理论基础。在社会和经济领域,线上线下调查数据、互联网数据、移动通信数据、不同行业部门数据的融合为解决社会管理和民生问题提供解决方案。在金融行业,产业部门的生产数据,流通领域的物流数据、电力部门的电量数据、税务部门的税务数据和银行的票汇数据等数据融合可以为各个领域的企业信用给出非常精准的评价。在医疗健康领域,医学影像数据、生理指标数据、医生诊断数据和医典数据等的融合为精准医疗提供支持。

因果推断方法。有两位经济学家因为因果推断的研究获得了2021年度的诺贝尔奖,这把因果推断方法推到了耀眼的位置。实际上,因为人工智能的兴起,因果推断方法在这些年已经是很热的研究领域了。国内的统计学者也早已深耕这个领域,并且在悖论研究、由局部因果网络构建全局因果网络等方面取得了很多领先的创新成果,在国际最高水平的期刊发表了多篇有影响的论文。在应用领域,目前可以将因果推断方法运用在政策效能评价、产品监管、疾病诊疗和食安预警等方面。

健康监测与灾害预警的统计方法。这项技术是基于对一个复杂的有机系统的运行规律进行精准刻画,找出健康运行的本质特征量和正常运行的阈值,运用统计技术制定出预警方法,达到健康监测和预警的目的。这套方法的思想可以类比于生产线的统计质量控制方法,但要比它复杂得多。因为每个系统都有它的特点,很多情况下在灾害发生之前并无异常数据,变量间关系的非线性也是难点。但这些方法确实非常有用,需要更多的实践积累,也需要更多的理论研究。这些技术可以运用在区域经济社会发展的健康监测,也可以用在高层建筑、大型桥梁、大型设备的健康监测,山体滑坡预警、群体聚集危险预警等。

传染病监测与防治的统计技术。新冠病毒的传播使得大众认识了病毒的传播途径。世界各国采取的政策以及后果也为制定传染病防治政策提供了依据。新冠病毒的传播尚没有结束,新新冠病毒还可能再次来临,这需要各个社会形成一套行之有效的应对策略。中国政府以广大人民为中心,有效地抑制了病毒的大规模传播,拯救了万千人民的生命。生物统计学家们已经取得了大量的研究成果,随着数据的不断完善,尚有很多问题需要解决。这包括政策效果评价,不同政策下传染病传播规律的建模分析,病毒序列演变规律预测,基于大数据融合的传染病监测预报等研究课题。

总结:我们列出了对技术发展、社会经济发展以及人民健康有直接作用的统计研究主题。在学习过程中我们体会到还有些更加重要的研究课题,比如高质量社会发展测度,生态与气候预测分析等问题,由于本人不是很熟悉这些领域没有列出,希望有相关学者进行论述。