检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]解放军信息工程大学信息工程学院,河南郑州450002
出 处:《计算机工程与设计》2007年第7期1688-1690,共3页Computer Engineering and Design
摘 要:在PDF的各种应用中,对于文档的理解与处理是非常重要的。首先要从文档中提取相关的关键词和短语,以便于在文档内部或外部建立超链接,方便建立电子文档。因此提出了一种新的方法,将关键信息(关键性的单词、词组或区域)从PDF文件中提取出来,经过组织后,保存在称为KIU的文件中,这样可以在实际上不接触PDF文件的情况下,自动生成超链接。分区域的方法有利于提取过程,找到文本的位置和范围后,可以借助于光学字符识别(OCR)软件来提取文本中的关键性词语或词组。For a variety application of PDF, document processing and understanding is important. The first step towards this process often involves the extraction of relevant key information from the document so that they are automatically hyperlinked within and outside the document so that an electronic document is created. A new method for extracting key information from PDF files is presented. The information is organized and kept in some KIU file. Thus the hyperlinking is done automatically without actually touching the PDF files. Domain specific knowledge about the document is used to aid the extraction process. Once the location and extent of the texts are found, significant keywords or phrases are extracted with the help of Optical Character Recognition (OCR) software.
关 键 词:PDF文件 关键信息 文本提取 标准通用置标语言 超链接
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.13