统计语言模型中词的自动聚类技术研究  被引量:3

Research on Automatic Clustering Technique of Chinese Words in Sta tistical Language Model

在线阅读下载全文

作  者:高升[1] 徐志明[2] 

机构地区:[1]湛江海洋大学信息工程学院,湛江524088 [2]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001

出  处:《计算机工程与应用》2003年第11期69-70,152,共3页Computer Engineering and Applications

基  金:国家863项目"语音识别与语音合成的短语构成技术"资助(编号:863-306-03-02-1)

摘  要:为了压缩基于词的统计语言模型的参数空间,以便构造模型空间更加紧密的ClassN-gram模型,该文研究了汉语词的自动聚类技术,提出了一种基于评价函数的汉语词的聚类算法,该算法采用词的相似度理论,并通过构造词的启发式候选词类链表,极大提高了聚类算法的工作效率。For the sake of compressing parameter space of word-based statistical language model,the word clustering technique is discussed so that compact Class N-gram can be built.The Chinese words clustering algorithm based on evaluation function is put forward,which employs a kind of vector space method to compute word similarity.The efficiency of this algorithm is evidently improved by building a heuristic list that consists of candidate word classes for each word,consequently the Chinese Class N-gram is built.

关 键 词:统计语言模型 聚类算法 评价函数 语义分类体系 

分 类 号:TP391.2[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象