基于类别词语权重的MBL改进方法  

AN IMPROVED MEMORY-BASED LEARNING APPROACH BASED ON TERM WEIGHT

在线阅读下载全文

作  者:鲁松[1] 孙红梅[1] 白硕[1] 

机构地区:[1]中国科学院计算技术研究所,北京100080

出  处:《模式识别与人工智能》2001年第1期27-32,共6页Pattern Recognition and Artificial Intelligence

摘  要:记忆学习方法(Memory-Based Learning(MBL))将存储的训练数据作为获取的知识来使用,并通过相似性比较来完成分类任务,克服了词语一级自然语言处理中知识表示不足给机器学习知识获取带来的障碍。但自然语言的灵活性使MBL方法基于属性逻辑(attribute logic)的表示方法面临着较为严重的数据稀疏问题(data sparseproblem),这已经成为MBL方法应用于自然语言处理的主要瓶颈。本文正是针对这一问题,提出一种通过可信距离的判别机制将信息提取领域里文档表示方法的tf.idf词语权重计算引入到MBL中的改进方法。实验证明,我们提出的方法在保持原有训练集规模的情况下使正确率得到了较大的改进。Memory-Based Learning (MBL) with its special learning method can overcome the difficulty of learning natural language automatically. But the attribute logic knowledge representation brings about the serious data sparse problem because of the flexibility of natural language. That is the 'big' bottleneck of appling MBL to Natural Language Processing. To deal with this problem, an improved MBL approach based on term weight in Information Retrieval is provided in this paper. Our experiment shows the improvement by the approach.

关 键 词:自然语言处理 词语权重 记忆学习方法 机器学习 懒惰学习法 

分 类 号:TP183[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象