基于子词链的中文新闻广播故事自动分割  被引量:2

Subword-based lexical chaining for automatic story segmentation in Chinese broadcast news

在线阅读下载全文

作  者:杨玉莲[1] 谢磊[1] 

机构地区:[1]西北工业大学计算机学院,西安710072

出  处:《计算机应用研究》2009年第2期583-586,594,共5页Application Research of Computers

基  金:国家教育部高等学校博士点学科专项基金资助项目(20070699015);陕西省自然科学基础研究计划资助项目(2007F15);西北工业大学基础研究基金资助项目;西北工业大学"翱翔之星"计划资助项目(07XE0150)

摘  要:提出了一种基于子词链的中文新闻广播故事自动分割方法。利用中文同音异形字众多、词典开放、分词多样和组词灵活等特点,在新闻广播的语音识别抄本上采用中文子词单元(汉字和音节)创建子词链,进行中文新闻广播故事的自动分割,有效地解决了在传统词链方法中由于语音识别错误(特别是词典未收录词汇)导致的相关联词之间无法匹配的问题。同时,利用各级词汇表示单元之间的互补性,如词的表义确定性和子词对语音识别错误的鲁棒性,对各级词汇进行融合,利用不同级别词汇表示单元的优势进一步提高中文新闻广播故事分割的性能。在TDT2中文标准新闻广播语料库上进行的实验表明,基于一元汉字子词链分割方法的F-mea-sure比传统词链方法提高了6.06%。基于一元和二元汉字子词链边界强度的融合可以使F-mea-sure进一步提高2.55%。基于投票法的融合可以使F-measure比传统词链方法提高9.04%。This paper applied Chinese subword representations(character and syllable n-grams) into chaining-based automa-tic story segmentation of Chinese broadcast news.It showed the robustness of Chinese subwords against speech recognition errors,especially OOV(out of vocabulary)words,in lexical term matching in erroneous speech recognition transcripts.Proposed a subword chaining approach that links repetitions of Chinese character/syllable n-gram units.Also proposed to integrate diffe-rent lexical scales in chainin...

关 键 词:子词 词链 主题分割 故事分割 信息检索 语音文件检索 

分 类 号:TN912.34[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象