PDF Analyzer

PDF內容分析

操作模式

PDF分析器: 訓練模式與預覽模式

PDF解析器上方可選擇VIEW/TRAIN兩種模式。在訓練模式(TRAIN)中可以進行程式碼編寫,在預覽模式(VIEW)中則可對該文件進行預覽,文件換頁則可透過左邊的UP/DOWN操作。

PDF

目前解析的文件,支援ISO標準的PDF/A格式,可點擊PICK選取或使用 %FILENAME% 變數。

PASSWORD

PDF文件密碼(選填)。也可以將密碼寫在文字檔並放置於工作資料夾中,此時欄位中填寫該文字檔檔名。

input輸入物件

輸入物件是將PDF檔案轉換後的資料物件,其中包含了統一坐標系後的所有文字物件,線條物件...,以及解析所需的函式。

座標系統

input中使用Page Normalized Coordinate(PNC)座標系統。原點位於左上角,每一頁的座標範圍正規化至相鄰的整數範圍。例如第一頁的座標範圍是[0,0]~[1,1],第二頁則是[0,1]~[1,2]... 依此類推。依此整份文件可視為x: [0~1], y: [0~(N-1)],的連續坐標系。(N為頁數)

文字物件

文字物件的基本屬性

文字物件是解析文件所使用的最小單位物件,每個文字物件都帶有以下的屬性:

解析函式

PDF文件的解析邏輯

輸入物件提供了數個解析函式與工具函式能幫助使用者在空間中找出目標物件。整體的解析邏輯在於使用空間(spatial)或字詞(textual)上的條件縮小文字物件的集合,接著用相對關係找到目標物件。

工具函式

Viewer與CodeGen

PDF解析器的預覽模式除了可以標示文字物件與座標外,也可以透過滑鼠與鍵盤的操作來自動產生函式程式碼,使用者在完成操作後可以到編輯模式中直接貼上並進行少量修改,減少程式編輯的時間。

  • 抓取物件:

滑鼠點擊文字物件
  • 產生邊界:

滑鼠於想選取的區域拖拉出選取框
  • 方向解析:

游標置於鍵值物件上,按下Shift+方向鍵,即可解析該方向第一個遇到的物件
  • 範圍解析:

游標置於起始鍵值物件上按下Shift,游標移至結束鍵值物件上點擊,即可選取兩者間的物件
  • 相對區域解析:

游標至於起始物件上按下Shift,游標移至想解析之區域拖拉出選取框

output 輸出物件

加入 output 物件中的每個 key 將被輸出成工作資料夾中的一個 TXT 檔案,檔案名稱即為 key,文字內容為該 key 相對應的 value。

範例

Last updated