基于结构语义熵的网上商品信息提取系统  被引量:2

EXTRACTION ALGORITHM OF MERCHANDISE INFORMATION ON NETWORKS BASED ON STRUCTURED-SEMANTIC ENTROPY

在线阅读下载全文

作  者:吴晓彦[1] 郑骁庆[1] 顾轶灵[1] 沈元一[1] 

机构地区:[1]复旦大学软件学院,上海201203

出  处:《计算机应用与软件》2010年第9期49-52,84,共5页Computer Applications and Software

基  金:国家科技支撑计划项目(2006bah02a05-06)

摘  要:目前网上销售已成为一种重要的商品销售途径,其中商品网页信息提取是商品发布信息监测、商品比价等应用的技术基础。传统的网页信息提取系统在提取这些商品信息时存在人工干预过多和提取数据的针对性不强的问题。针对商品销售网站数据的具体表现形式,提出了一种基于结构语义熵的商品信息提取算法。该算法结合了商品的语义特征和网页的结构表现形式,可以实现全自动的网页商品提取。并通过实验证明了算法的有效性,和其在网上商品销售领域的普适性。Nowadays the online selling has become an important way of the commodity market, as for the applications in information moni- toring of commodities launching and in price comparison, the extraction of commodity' s webpage information is the basic technique. Traditional webpage extraction system faces the problems of too much manual intervention and the extracted data being weak in pertinence. We present an extraction algorithm based on structured-semantic entropy for commodity information,which is in allusion to specific form of the data on com- modity selling websites. Combining semantic attributes of the commodities and the structured representation form of webpage, the algorithm ex- tracts commodity information from the webpage automatically. The algorithm has been proved its validity and universality in networks commodi- ty selling sector through the experiment.

关 键 词:网页信息提取 结构语义熵 信息聚集度分析 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象