检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:梁宇海 周强[2] LIANG Yuhai;ZHOU Qiang(Institute of Information Photonics and Optical Communications,Beijing University of Posts and Telecommunications,Beijing 100876,China;Center for Speech and Language Technologies,Research Institute of Information Technology,Beijing National Research Center for Information Science and Technology,Tsinghua University,Beijing 100084,China)
机构地区:[1]北京邮电大学,信息光子学与光通信研究院,北京100876 [2]清华大学信息技术研究院语音和语言技术中心,北京信息科学与技术国家研究中心,北京100084
出 处:《中文信息学报》2020年第1期23-33,共11页Journal of Chinese Information Processing
基 金:国家自然科学基金(61433018,61373075)。
摘 要:真实对话数据量不足已经成为限制数据驱动的对话生成系统性能提升的主要因素,尤其是汉语语料。为了获得丰富的日常会话语料,可以利用字幕时间戳信息把英语电视剧的英文字幕及其对应的中文字幕进行同步,从而生成大量的汉英双语同步字幕。然后通过信息检索的方法把双语同步字幕的英文句子跟英语剧本的演员台词进行自动对齐,从而将剧本中的场景和说话者信息映射到双语字幕中,最后得到含有场景及说话者标注的汉英双语日常会话库。该文利用这种方法,自动构建了包含978109对双语话语消息的接近人类日常会话的多轮会话数据库CEDAC。经过抽样分析,场景边界的标注准确率达到97.0%,而说话者的标注准确率也达到91.57%。该标注库为后续进行影视剧字幕说话者自动标注和多轮会话自动生成研究打下了很好的基础。The insufficient human dialogue corpus has been a key factor restricting the performance of dialogue generation system,especial for the Chinese dialogue corpus.This paper presents the automatic construction of CEDAC,a multi-turn dialogue corpus of human daily conversation with 978109 pairs of Chinese-English bilingual utterances.To obtain this corpus,time-stamps can be used to synchronize English subtitles and corresponding Chinese subtitles,so that abundant Chinese-English bilingual subtitles can be generated.Then,the bilingual subtitles and the utterances in the corresponding English scripts are alinged,so that the tags of speaker and scene in the scripts can be mapped to each pair of sentences in the bilingual subtitles.The experimental result shows it achieves the accuracy of 97.0%on scene boundary annotations and91.57%on speaker annotations.The corpus lays a good foundation for the following research on automatically annotating speakers of subtitles and multi-turn dialogue automatic generation system.
关 键 词:日常会话语料 电视剧剧本解析 双语字幕同步 剧本和字幕的自动对齐
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.222.188.218