紙媒体の文章をテキストデータに変換
要望
フランス語で書かれた論文をテキストデータにしたい。製本された形のものをそのまま読み込みたい。
作業内容
製本されているものをバラバラにせずにキレイに読み取るためには、非接触型のスキャナを利用します。
今回選んだ機材は、ページのゆがみも調整可能なPFUのSV600です。
しかし、付属しているOCRソフトではレイアウト崩れや文字を正確に認識してくれないなどの問題がありました。
そこで使用したのがGoogleDocsを利用した画像OCR機能です。
「PDF や写真のファイルをテキストに変換する - パソコン - Google ドライブ ヘルプ」
【手順】
- SV600でJPG画像としてスキャン
- GoogleDriveに転送
- 目的のファイルを選択し、[アプリで開く] 次へ [Google ドキュメント] をクリックします。
- 必要な部分だけコピーしてワードなどのテキストエディタで編集する。
たったこれだけの手順で非常に精度の高いデジタルデータとして読み込むことができました。
無料でここまでの事ができるとは驚きです!
Google恐るべし。
しかし、少しだけ問題もありました。
GoogleDocs上で文字データの文字色が白になってしまい、見えないというものです。
解決方法としては、文字列すべてを選択して文字色を黒に変更することで見えるようになりました。
なぜこのような現象が起きたのかは不明です。
パソコンでお困りの時はいつでも「パソコン職人 A.I.PC」にご相談ください!
故障対応はもちろん、使い方がわからない、新しいパソコンが欲しいなどのご相談も随時受付中です。
電話相談は 0120-960-382(富山本店)
Webからのお問合せはコチラ
LINEからの相談も受付中です!
0コメント