• |本期目錄/Table of Contents|

    [1]田翠華,張一平,胡志鋼,等.PDF文檔表格信息的識別與提取[J].廈門理工學院學報,2020,(3):70-76.[doi:doi:1019697/jcnki16734432202003012]
     TIAN Cuihua,ZHANG Yiping,HU Zhigang,et al.Recognition and Extraction of Table Information from PDF Documents[J].Journal of JOURNAL OF XIAMEN,2020,(3):70-76.[doi:doi:1019697/jcnki16734432202003012]
    點擊復制

    PDF文檔表格信息的識別與提取(PDF)
    分享到:

    《廈門理工學院學報》[ISSN:1673-4432/CN:35-1289/Z]

    卷:
    期數:
    2020年第3期
    頁碼:
    70-76
    欄目:
    計算機與信息工程
    出版日期:
    2020-06-30

    文章信息/Info

    Title:
    Recognition and Extraction of Table Information from PDF Documents
    文章編號:
    16734432(2020)03007007
    作者:
    田翠華張一平胡志鋼高靜敏李西雨
    (廈門理工學院計算機與信息工程學院,福建 廈門 361024)
    Author(s):
    TIAN Cuihua ZHANG Yiping HU Zhigang GAO Jingmin LI Xiyu
    (School of Computer & Information Engineering,Xiamen University of Technology,Xiamen 361024,China)
    關鍵詞:
    PDF文檔表格信息信息識別信息提取Python開發平臺
    Keywords:
    PDF document table information information recognition information extraction Python development platform
    分類號:
    TP317
    DOI:
    doi:1019697/jcnki16734432202003012
    文獻標志碼:
    A
    摘要:
    為編輯PDF文檔中的表格信息,設計一種基于Python平臺的,包含文件選取與文件轉換兩大功能模塊的信息提取軟件。該軟件利用Python內置庫,針對PDF中不同表格的結構設計算法,識別表格內的文字信息與表格結構,將得到的表格結構還原至Word與Excel文檔中,文字信息同樣復原至對應單元格內。實驗表明:開發的軟件完整快速地提取了PDF中的表格信息,并將其轉化為易于編輯的Excel和Word文檔,達到了預期目的;其轉換速度與收費軟件WPS相當,轉換速度明顯快于其他免費轉換軟件;識別精確度與迅捷PDF轉換器、Smallpdf等相比有所提高。
    Abstract:
    An information extraction software to edit the table information in PDF documents was designed on the Python platform,which contains modules of file selection and file conversion.The software uses the Python builtin library to design algorithms for structures of different tables in PDF,recognizes the text information and table structure in the table,and restores the obtained table structure to Word documents or Excel documents and the text information to the corresponding cells.Experiments show that the software developed extracts table information from PDF documents completely and quickly,and converts it into easytoedit Excel and Word documents,achieving the expected results.It has a conversion speed equivalent to that of paid software WPS and significantly faster than those of other free conversion software,and its recognition accuracy is better than Xunjiepdf,Smallpdf and the likes.

    參考文獻/References:

    [1] ANDREIWID S,ZANDER P.Unleashing tabular content to open data:a survey on PDF table extraction methods and tools[C]//Proceedings of the 18th Annual International Conference on Digital Government Research.New York:Association for Computing Machinery,2017:5463. [2] 于豐暢,陸偉.基于機器視覺的PDF學術文獻結構識別[J].情報學報,2019,38(4):384390. [3] LOVEGROVE W S,BRAILSFORD D F.Document analysis of PDF files: methods,results and implications[J].Electronic PublishingOrigination,Dissemination and Design,1995,8(3): 207220. [4] HASSAN T.Objectlevel document analysis of PDF files[C]//Proceedings of the 2009 ACM Symposium on Document Engineering.Munich: Association for Computing Machinery,2009:47. [5] ZHANG X,GAO L,YUAN K,et al.A symbol dominance based formulae recognition approach for PDF documents[C]//IAPR International Conference on Document Analysis and Recognition (ICDAR).New Jersey: IEEE Computer Society,2017:1 1441 149. [6] CHEN J,GAO L ,TANG Z.Informationextraction from resume documents in PDF format[J].Electronic Imaging,2016(17):18. [7] 馬晶晶.金融領域信息的自動抽取與分析方法[D].哈爾濱:哈爾濱工業大學,2013. [8] 竇方坤,曹皓偉,徐建良.基于文本元素的PDF表格區域識別方法研究[J].軟件導刊,2020,19(1):113116. [9] 唐皓瑾.一種面向PDF文件的表格數據抽取方法的研究與實現[D].北京:北京郵電大學,2015. [10] 陸錦鶴.Excel軟件VBA功能使用案例一則:從PDF文件中提取出的信息中挑選需要的信息并重新排版形成可用的Excel表格文件[J].智庫時代,2018(39):133134. [11] 牛作東,李捍東.基于Python與flask工具搭建可高效開發的實用型MVC框架[J].計算機應用與軟件,2019,36(7):2125. [12] 徐玉芳,蘇斌.Python語言特點及其在機器學習中的應用[J].計算機產品與流通,2019(12):142. [13] 張喜紅,王玉香.基于Python Tkinter課堂手機監管系統的設計[J].中州大學報,2019,36(2):125128. [14] 陸錦鶴.Excel軟件VBA功能使用案例一則:從PDF文件中提取出的信息中挑選需要的信息并重新排版形成可用的Excel表格文件[J].智庫時代,2018(39):133134.[14] 劉艷茹,孫維耕,封平安.Word文檔模板的制作及其應用[J].科學技術創新,2019(25):7274.

    相似文獻/References:

    備注/Memo

    備注/Memo:
    收稿日期:20200209修回日期:20200601 基金項目:廈門市科技計劃項目(3502Z20193058);廈門理工學院優質研究生課程及案例庫建設項目(YG20190303);廈門理工學院創新創業實驗班校企合作項目(2019SYB07) 通信作者:田翠華,女,副教授,博士,研究方向為云計算、物聯網,Email:2010110711@xmuteducn。 引文格式:田翠華,張一平,胡志鋼,等.PDF文檔表格信息的識別與提。跩]廈門理工學院學報,2020,28(3):7076 Citation:TIAN C H, ZHANG Y P, HU Z G,et al. Recognition and extraction of table information from PDF documents[J]Journal of Xiamen University of Technology,2020,28(3):7076(in Chinese)
    更新日期/Last Update:
    大佬彩票平台