基于购物网站用户搜索日志的商品词发现  被引量:3

SHOPPING SITE USER SEARCH LOGS BASED COMMODITY WORDS DETECTION

在线阅读下载全文

作  者:杨锦锋[1] 吕新波[1] 关毅[1] 周春波[1] 

机构地区:[1]哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001

出  处:《计算机应用与软件》2011年第11期108-111,160,共5页Computer Applications and Software

基  金:国家自然科学基金项目(60975077;60736044)

摘  要:商品词是电子商务领域描述商品的新词。主要介绍基于购物网站用户搜索日志的商品词发现的方法。该方法从搜索日志中提取用户查询,对查询进行分词,采用N元递增分步算法和串频统计,计算候选串的条件概率,选择候选商品词。为了降低人工审核的成本,只对产出商品词的准确率进行评价。利用该方法在手机、面霜和香水三类商品的搜索日志上进行了实验,最高准确率达到92.58%。Commodity words are a new phrase to describe commodities in the e-business field. The paper mainly introduces a shopping site user search logs based commodity words detection method. The method extracts user queries from search logs, which are segmented into phrases;then it uses N-gram increasing algorithm and string frequency statistics to calculate conditional probabilities of candidate strings and makes choices from candidate commodity words. To cut down manual review costs, only the precision of generated commodity words is evaluated. Experiments utilizing the method are performed on search logs about altogether three commodity categories, i. e. , mobiles, face creams and perfumes, whose highest precision rate reaches 92.58%.

关 键 词:商品词 新词发现 N元递增分步算法 串频统计 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象