文本数据建模中的机器学习重抽样理论与方法  被引量:1

在线阅读下载全文

作  者:李济洪[1] 王钰[1] 王瑞波[1] 杨杏丽[1] 曹学飞[1] 谷波[1] 牛倩[1] 薛彦 

机构地区:[1]山西大学,山西太原030006

出  处:《中国科技成果》2023年第12期25-27,共3页China Science and Technology Achievements

摘  要:在文本数据建模中,许多研究发现目前广泛使用的神经网络大模型,在常用的hold-outCV下,难以正确评估和优化模型,学习到的模型的预测性能稳定性也较差。为此,本课题研究和开发了一种统计机器学习新的重抽样方法,内容包括数据切分、模型的超参数调优、模型评估指标的统计分布、多个模型聚合、模型比较的假设检验和置信度计算等,称为组块正则化交叉验证(mX2BCV)建模方法,并从统计机器学习的模型评估和选择的基础理论上,论证了该方法的优良性,最后,在汉语句法语义自动分析器的建模中,验证了方法的可行性和优良性,开发完成了一个高性能的汉语句法语义分析器,为基于文本数据的稳健建模开辟了新途径。

关 键 词:文本数据 重抽样 组块正则化交叉验证 模型评估和选择 聚合模型 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象