检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京信息科技大学中文信息处理研究中心,北京100101
出 处:《计算机工程与应用》2013年第6期143-147,155,共6页Computer Engineering and Applications
基 金:国家社会科学基金项目(No.09CYY021)
摘 要:短语识别是进行短语分析的前期准备工作。针对搜索引擎日志中"N+V+N"、"V+N+N"型短语特点,采用最大熵方法,按词信息、词性信息、音节数及前位标记信息提取特征构建训练集,得到最大熵方法进行短语识别的机器学习模型。实验结果显示,利用最大熵方法对两种短语进行开放性测试,两种短语的识别F值分别达到85.78%和76.47%,取得了较好的自动识别效果,在半开放性测试中,其识别结果更佳。The phrase recognition is the period preparatory work before carrying on the phrase analysis. This paper in view of the characteristics of "N+V+N" ,"V+N+N" structure phrase in search engine query logs of the corpus, uses a method of maxi- mum entropy to get the machine learning model for phrase recognition according to the word information, the part of speech in- formation, the number of syllable, anterior tags. Experimental results of the open tests show better performances: F_value of "N+ V+N" 85.78% and F value of"V+N+N" 76.47%. In the semi open tests, the experiment result is better.
关 键 词:短语识别 搜索引擎日志“ N+V+N”“ V+N+N” 最大熵方法
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30