例えば司法書士会から来るお知らせの情報、今はほとんどメール添付のPDFファイル形式になっていると思います。私の場合、FAXの時代をぎりぎり分かる世代かもしれません。このファイルをテキスト形式にして自分なりにまとめたり、メモを付け加えたい場合。
例えばパワーポイントをPDF化した研修資料をテキスト形式に変換して、自分なりに分かりやすくしたい場合。
今回は、法務省のホームページからPDFファイルをダウンロードして、テキスト形式(メモ帳)に変換してみたいと思います。マイクロソフトのワードや、グーグルのドキュメントファイルに変換も出来ると思いますが、やったことがないので分かりません。試してみて可能であれば教えてください。またPDFファイルの種類(OCR処理されていないものなど)によっては、文字を上手く抽出出来ない場合があります。図がある場合も崩れるかもしれません。
法務省のHPです。
青の〇が付いているPDFファイルをダウンロードして、どこかに保存します。
コードです。’20200826.pdf ‘がファイル名なのでファイル名を適宜入れ替えます。
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
input_path = '20200826.pdf'
output_path = 'result.txt'
manager = PDFResourceManager()
with open(output_path, "wb") as output:
with open(input_path, 'rb') as input:
with TextConverter(manager, output, codec='utf-8', laparams=LAParams()) as conv:
interpreter = PDFPageInterpreter(manager, conv)
for page in PDFPage.get_pages(input):
interpreter.process_page(page)
マイクロソフトのビジュアルスタジオコード内です。
result.txtというファイル名のテキスト形式に変換しました。
メモ帳で開いてみます。
という感じでした。