Distributed Hard Screening for Massive Data海量数据的分布式硬筛选

时间:2023-10-30         阅读:

光华讲坛——社会名流与企业家论坛第6629期

主题Distributed Hard Screening for Massive Data海量数据的分布式硬筛选

主讲人西安交通大学 徐晨教授

主持人bat365中文官网 常晋源教授

11月1日 15:00-16:00

举办地点:bat365中文官网光华校区光华楼1003会议室

主办单位:数据科学与商业智能联合实验室 统计学院 科研处

主讲人简介:

徐晨教授毕业于加拿大不列颠哥伦比亚大学统计系,师从国际知名统计学家加拿大皇家科院院士陈嘉骅。毕业后赴美国宾州州立大学做博士后研究。现任西安交通大学特聘教授、加拿大渥太华大学长聘副教授。徐晨教授长期从事大数据统计机器学习的基础理论与方法研究,在大数据特征筛选/降维、再抽样理论与方法、分布式统计分析等领域取得系统性创新成果,做出多个原创性贡献。在统计学顶刊Journal of American Statistical Association、机器学习顶刊Journal of Machine Learning Research、IEEE Transactions on Pattern Analysis & Machine Intelligence和综合学科类顶刊National Science Review等国际著名杂志发表研究论文40余篇;主持加拿大自然科学探索基金、中国国家重点研发计划项目,参与中国国家自然科学基金重大项目、鹏城实验室重大科研攻关任务项目。研究获得加拿大统计学会最佳学生论文奖(2010)、加拿大国家统计科学研究所杰出博士后导师奖(2021)、粤港澳大湾区首届国际算法算例大赛冠军(2022)等。现任统计学权威杂志JASA、EJS的副主编,曾任CJS、Neurocomputing、Survey Sampling等国际知名杂志的编委或客座主编。

内容简介

Feature screening is a powerful tool for modeling high dimensional data. It aims at reducing the dimensionality by removing most irrelevant features before an elaborative analysis. When a dataset is massive in both sample size N and dimensionality p, classic screening methods become inefficient or even infeasible due to the high computational burden. In this paper, we propose a distributed screening method for the large-N-large-p setup. The new method is built upon an ADMM updating procedure of L0-constrained consensus regression, where data are processed in m manageable segments by multiple local computers. In the procedure, the local computers improve screening results iteratively by communicating with each other via a global computer. The joint effects between features are also accounted naturally in the screening process. It thus provides a computationally viable and reliable route for screening features with big data. Under mild conditions, we show that the proposed updating procedure is convergent and leads to an accurate screening even when m = o(N). Moreover, with a proper starting value, the procedure enjoys the sure screening property within finite number of iterations. The promising performance of the method is supported by extensive numerical studies.

特征筛选是高维数据建模的有力工具。其目标是在进行详尽分析之前通过去除最不相关的特征来对数据降维。当数据集在样本量N和维度p都非常大时,传统的筛选方法由于过高的计算负担而变得低效甚至不可行。针对这一问题,本文提出了一种针对“大N大p”情况的分布式筛选方法。这种新方法是基于ADMM更新程序构建的L0约束下的一致回归,其中数据可拆分为m个可控分段并分别由多个本地计算机处理。在此过程中,本地计算机通过与全局计算机通信来迭代改进筛选结果。在筛选时,特征之间的交互效应也自然地被纳入考量。因此,该方法为大数据特征筛选提供了可行且可靠的途径。在一般的条件下,我们证明了所提出的更新程序是收敛的,并且即使当m=o(N)时也能实现准确的筛选。此外,当选取了适当的初始值后,该程序在有限次迭代中具备确定筛选性。大量数值研究证明了该方法具备良好性能。

Baidu
sogou