查看完整版本: 用pdfbox 讀取PDF檔的表格...
頁: [1]

rescue1919 發表於 2009-8-6 06:58 PM

用pdfbox 讀取PDF檔的表格...

小弟用的版本是PDFBox-0.7.3

在看API的過程中  一直搞不太懂一些method的意思
google了半天也找不到適合的解答  囧

所以想請教些疑問.....

像是我想要抓取出一個表格裡的資料
可以用什麼方法呢??

是org.pdfbox.examples.fdf.PrintFields嗎?  @@

我想抓的表格格式如附圖: http://0rz.tw/YNeY1 (抓方框裡面的文字)

API: http://www.pdfbox.org/javadoc/index.html

麻煩幫忙解答了 <(_  _)>...<div class='locked'><em>瀏覽完整內容,請先 <a href='member.php?mod=register'>註冊</a> 或 <a href='javascript:;' onclick="lsSubmit()">登入會員</a></em></div><div></div>

pc75111329 發表於 2009-8-6 11:22 PM

你的表格式只框框內的字嗎?
暫時猜測org.pdfbox.io ,因為是要做IO提取嘛
不過你說的那個,看解釋好像是把全部弄進來,印出裡面的字
我在測試看看,畢竟我是實驗派的@@,等有結果在告訴你吧

pc75111329 發表於 2009-8-11 01:04 PM

本帖最後由 pc75111329 於 2009-8-11 01:06 PM 編輯

哀呀,實在抱歉,因為要實作抓取pdf,必須加載org.pdf的lib進java裡頭,
本人對抓取lib還不是很熟,畢竟初學。所以沒法幫您做測試。
不過就網路上得資料來看,好像很難做到大大的要求(這論點就我所查詢到的資料而言)
一方面,要實作抓取pdf中的文字的確很困難,而pdf又是img檔案,能將圖轉成文字以不錯了
存脆將圖轉文字已有資料可以供您參考,至於要抓特定的東西的話,就必須去探討圖轉文字
過程中,程式本身到底做的啥事,可能要去細看lib裡的程式內文,才有可能對您的要求上
有機會解決了,或許您想開發的是將pdf轉成別程式檔(word)的東西出來。或許您得不辭辛勞去
網路查詢有關的東西囉(而且也有人說,不同版本可能會有東西不能執行的問題,要注意)。
或許你可以試試與pdfBox開發人做詳談或許會有幫助,再次抱歉沒能幫到您@@
您就慢慢試吧= =...<div class='locked'><em>瀏覽完整內容,請先 <a href='member.php?mod=register'>註冊</a> 或 <a href='javascript:;' onclick="lsSubmit()">登入會員</a></em></div>
頁: [1]