关于搜索引擎的中文分词与页面排序的研究  被引量:4

RESEARCH ON CHINESE WORD SEGMENTATION AND PAGERANK IN REGARD TO SEARCH ENGINE

在线阅读下载全文

作  者:王锡钢[1] 王正[1] 陈虎[1] 

机构地区:[1]辽宁科技大学软件学院辽宁鞍山114051

出  处:《计算机应用与软件》2013年第9期211-214,共4页Computer Applications and Software

摘  要:从搜索流程的分词和页面排序出发,由于中文分词比较复杂,鉴于正向最大分词算法和逆向最大分词算法的优缺点,提出基于正向最大和逆向最大匹配的双向匹配算法,该算法在一定程度提高了分词的准确性。页面排序也是影响用户搜索效率的一个重要因素,而网页相关度和网页的链接都是直接影响网页权值的重要因素,因而提出一种基于网页相关性的PageRank算法。新的页面排序算法既防治了页面漂移的可能性,也防治了全部依赖网页相关性的排序结果。This paper proceeds from the word segmentation and page ranking of search process. Since the Chinese word segmentation is rather complex, in view of the advantages and disadvantages of forward maximum segmentation algorithm and reverse segmentation algorithm, first we propose a two-way matching algorithm which is based on the forward and reverse maximum matching, the two-way matching algorithm improves the accuracy of the word segmentation to certain extent. Page rank is also an important factor affecting users search efficiency, and the webpage relevance and the links of webpage are all the important factors directly influencing the weights of webpage, so we propose the webpage relevance-based PageRank algorithm. New webpage rankir^g algorithm prevents both the possibility of page drift and the ranking results wholly relying on the webpage relevance.

关 键 词:正向最大匹配逆向最大匹配PageRank VSM 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象