检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《模式识别与人工智能》2001年第1期27-32,共6页Pattern Recognition and Artificial Intelligence
摘 要:记忆学习方法(Memory-Based Learning(MBL))将存储的训练数据作为获取的知识来使用,并通过相似性比较来完成分类任务,克服了词语一级自然语言处理中知识表示不足给机器学习知识获取带来的障碍。但自然语言的灵活性使MBL方法基于属性逻辑(attribute logic)的表示方法面临着较为严重的数据稀疏问题(data sparseproblem),这已经成为MBL方法应用于自然语言处理的主要瓶颈。本文正是针对这一问题,提出一种通过可信距离的判别机制将信息提取领域里文档表示方法的tf.idf词语权重计算引入到MBL中的改进方法。实验证明,我们提出的方法在保持原有训练集规模的情况下使正确率得到了较大的改进。Memory-Based Learning (MBL) with its special learning method can overcome the difficulty of learning natural language automatically. But the attribute logic knowledge representation brings about the serious data sparse problem because of the flexibility of natural language. That is the 'big' bottleneck of appling MBL to Natural Language Processing. To deal with this problem, an improved MBL approach based on term weight in Information Retrieval is provided in this paper. Our experiment shows the improvement by the approach.
关 键 词:自然语言处理 词语权重 记忆学习方法 机器学习 懒惰学习法
分 类 号:TP183[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117