一种Web主题文本通用提取方法  被引量:5

Study on general extracting method of Web topic text

在线阅读下载全文

作  者:蒲强[1] 李鑫[1] 刘启和[1] 杨国纬[1] 

机构地区:[1]电子科技大学计算机科学与工程学院,四川成都610051

出  处:《计算机应用》2007年第6期1394-1396,共3页journal of Computer Applications

基  金:国家自然科学基金资助项目(60471055);国家863计划项目(2005AA114030)

摘  要:为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的HTML标记分析,其通用性较强。实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求。A simple and efficient method of generally extracting Chinese topic text from Web pages was proposed in this paper in order to build a large Chinese text corpus. This method just utilizes length of Chinese texts and series of punctuations, along with a few rules of discrimination, to extract needed text from Web pages accurately without analyzing HTML tags. The experiment shows the extraction is so fast and accurate that it can achieve the requirement of constructing a large Chinese text corpus.

关 键 词:WEB文本 文本提取 文本语料库 

分 类 号:TP311.52[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象