ダウンロードしたPDF資料の文字を、テキストファイル(メモ帳)などに変換する場合

 例えば司法書士会から来るお知らせの情報、今はほとんどメール添付のPDFファイル形式になっていると思います。私の場合、FAXの時代をぎりぎり分かる世代かもしれません。このファイルをテキスト形式にして自分なりにまとめたり、メモを付け加えたい場合。

 例えばパワーポイントをPDF化した研修資料をテキスト形式に変換して、自分なりに分かりやすくしたい場合。

 今回は、法務省のホームページからPDFファイルをダウンロードして、テキスト形式(メモ帳)に変換してみたいと思います。マイクロソフトのワードや、グーグルのドキュメントファイルに変換も出来ると思いますが、やったことがないので分かりません。試してみて可能であれば教えてください。またPDFファイルの種類(OCR処理されていないものなど)によっては、文字を上手く抽出出来ない場合があります。図がある場合も崩れるかもしれません。

法務省のHPです。

青の〇が付いているPDFファイルをダウンロードして、どこかに保存します。

コードです。’20200826.pdf ‘がファイル名なのでファイル名を適宜入れ替えます。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage

input_path = '20200826.pdf'
output_path = 'result.txt'

manager = PDFResourceManager()

with open(output_path, "wb") as output:
    with open(input_path, 'rb') as input:
        with TextConverter(manager, output, codec='utf-8', laparams=LAParams()) as conv:
            interpreter = PDFPageInterpreter(manager, conv)
            for page in PDFPage.get_pages(input):
                interpreter.process_page(page)

マイクロソフトのビジュアルスタジオコード内です。

result.txtというファイル名のテキスト形式に変換しました。

メモ帳で開いてみます。

という感じでした。