基于孤立森林算法的统计报表异常数据检测  被引量:2

在线阅读下载全文

作  者:吴欣然 张凌 顾淼 WU Xinran;ZHANG Ling;GU Miao

机构地区:[1]国家药品监督管理局信息中心,北京100044

出  处:《信息技术与信息化》2023年第12期208-211,共4页Information Technology and Informatization

摘  要:孤立森林算法是一种无监督学习的异常数据检测方法,广泛应用于诸多领域,其具有普适性、高效性、可扩展性和可解释性等优势。对于全国药品监管统计调查工作,基于孤立森林算法框架设计了一种统计报表异常数据检测方法。所提出的方法包含三个主要步骤:数据预处理、特征选取与模型构建。在数据预处理阶段,使用对数转换和平滑函数处理数据,提高模型的鲁棒性。特征选取阶段采用分位数和Z分数等统计指标,构建多维特征数据,提供更准确的异常检测信息。在线下实验中,通过PR曲线,与传统异常数据检测算法进行对比,证明其性能优势。在工作实践中,通过投资回报率(ROI)指标,与传统的人工检测方法对比,证明其高效性。所提出的方法对于稀疏数据场景的识别率还有待提高,需要进行适当的调优和验证,在统计报表异常数据检测中具有应用价值和意义,是全国药品监管统计调查工作中贯彻“十四五”加快推进数字化转型,从信息化向智能化转变和发展的具体举措。

关 键 词:孤立森林 统计报表 异常数据检测 药品监管 数字化转型 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论] TP181[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象