基于语义的中文网页检索  被引量:4

Semantic-based Chinese Web Page Retrieval

在线阅读下载全文

作  者:余一骄[1] 刘芹[2] 

机构地区:[1]华中师范大学语言学系,武汉430079 [2]武汉大学计算机学院,武汉430072

出  处:《计算机科学》2012年第8期79-87,共9页Computer Science

基  金:教育部人文社会科学研究项目(10YJA740120);湖北省教育厅人文社会科学研究项目(2010b032)资助

摘  要:用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。Semantic-based chinese Web page retrieval is a promsing application.The existing semantic retrieval mechanisms are categorized into three types,which are based on ontology,natural language understanding,and text classification and clustering respectively.The three technologies were reviewed and examined in detail.Semantic-based chinese Web page retrieval system should focus on popular fields to draw great attention from Web users.Moreover,Web pages should be indexed with words rather than chinese characters.Advanced chinese information processing technologies should be integrated into semantic retrieval systems.Some directions for future research were finally presented,including semantic relevance ranking,ontology definition and instance automatic extraction,semantic-based indexing,and large-scale semantic training collections construction.

关 键 词:语义检索 中文网页 本体 分类 聚类 信息抽取 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象