检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国传媒大学文学院,北京100024 [2]国家语言资源监测与研究中心有声媒体中心,北京100024
出 处:《海南大学学报(人文社会科学版)》2014年第2期119-126,共8页Journal of Hainan University (Humanities & Social Sciences)
摘 要:通过分析中文话题型微博的文本特点以及人称代词的分布特征,指出该类微博是一种特殊的多人会话文本,其人称代词具有词型较少、各类人称代词使用比重差异较大、用法不规范、常出现泛指与外指等特点,并依据这些特点,提出去伪、特殊命名实体提取、建立话题语用表单、多层面语言信息提取等策略,以及相应的消解方法。实验结果证明该方法可取得较好的效果。This paper, analyzing the textual features and the distribution of personal pronouns in Chinese topic- oriented microblog, holds that this type of microblog is a special multi-lateral discourse text. The personal pro- nouns show such features as less types, great difference in use percentage, irregular usage, more generic refer- ence and exophora and so on. According to these features, the study proposes some strategies including the fake- removing, the extraction of special naming entity, the establishment of topic-centered sheet and the multi-level abstraction of language information, as well as the corresponding resolutions. The test proves that the strategies can ensure the better effects.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15