文字列や表を抽出できるのは、Office Lens。
Microsoft社が無料で提供してて、アカウント登録しとけばOneDriveと連携して使える。
文字や表を抽出したい!
テキスト抽出はけっこう簡単にできる。
PDFのドキュメント化はGoogleドライブからドキュメントに落とし込めばいい。
これに引っかからないやつがある。
そいつらは、いったん画像ファイル化して、Office Lensで処理する。
ちょっと手間だけど、無料アプリだから。
Windows 10 のパソコンと、Androidスマホを使ったよ。
Office Lens を知ろう!
マイクロソフトが提供してる画像処理用のアプリ。
iOS版とAndroid版がある。
Windows版はないっ!
![OneDriveのOffice Lens](https://pxa.xsrv.jp/test103/wp-content/uploads/2017/01/onedrive-office-lens-300x49.png)
かつてはWindows 10 Mobile向けに提供されてたんだけど。
プロダクトが終わっちまったからな。
いずれにしても、スマホカメラを賢く使いたいって意図なんだろう。
けっこういろんなことができる。
- 歪み補正(ホワイトボードとかを斜めに撮影してもきれいにしてくれるやつ)
- 文書撮影(長い文書でも1ページずつ撮影して取り込んでくれる)
- テキスト抽出(特定の部分んからテキスト情報を抜き出してデータ化してくれる)
- テーブル抽出(← 今回使うやつ)
- 名刺撮影
- とかとか
こいつらは、スマホカメラの拡張機能として提供される。
取得したデータは、ローカル保存かクラウドストレージか。OneDriveだけじゃなく、連携済みのアカウントのストレージサービスにはアップできる。Google Driveもおっけー。
カメラ画像だけじゃなく、既存の画像も処理できる。
ここが今回のポイント!
PDFから表を抽出
今回やりたいことは、PDFに書かれてる表をデータ化してExcelで編集したい!ってこと。PDFはパソコンで見てるの。
他人のデータを拝借するなって?
固いこと言いなさんな。手元資料に使うだけさね。
どーせ転記するんだから、ミスなくいこーぜって話だよ。
![Excel](https://pxa.xsrv.jp/test103/wp-content/uploads/2020/12/image-14-300x163.png)
準備。
以下のアプリを使うから、あらかじめ入れとく。いずれも無料。あと、マイクロソフトアカウントで連携しとく。
- Office Lens
- OneDrive
- Microsoft Excel
パソコンからもスマホからも、同じOneDriveの場所を参照できることが前提。
表だけの画像ファイルを作る
Google Drive + ドキュメント では処理してくれなかった表を、Adobe Readerの範囲指定でコピーして、ペイントに貼り付けて画像にしたよ。
やり方は他にもいくらでもあろう。
画面コピーを取得しちゃうとか。
他のツールを使うとか。
とにかく、抽出したいものの画像ファイル(.jpgとか.pngとか)を作ろう。
![アップロード](https://pxa.xsrv.jp/test103/wp-content/uploads/2017/03/cloud-computing-01-300x207.png)
そしてファイルはOneDrive経由でスマホへ。
スマホではローカルにダウンロードしとく。
すでにあるならここからスタートでもよき。
ちなみに、紙媒体なら次のステップからで。
そこで写真を直接撮っちゃいなよ。
Office Lens に処理してもらう
メインイベント。
Office Lensを起動したら、「アクション」へ。
![Office Lens Android版](https://pxa.xsrv.jp/test103/wp-content/uploads/2021/08/Screenshot_202108-001-300x184.jpg)
続いて「テーブル」を選択。
![テーブル](https://pxa.xsrv.jp/test103/wp-content/uploads/2021/08/Screenshot_202108-001b-300x184.jpg)
対象ファイルは撮影してもいーんだけど、前段階で準備しといた画像ファイルで。
左下にある写真参照アイコンから、ローカルの既存ファイルを選択できる。
どこにあるか次第で。
ちなみに、ダウンロードしてなにもしてなければ「ダウンロード」フォルダーにあります。
![ファイル参照](https://pxa.xsrv.jp/test103/wp-content/uploads/2021/08/Screenshot_202108-001c-300x184.jpg)
Office Lensの処理後に表範囲を手動選択したら、チェックマークをタップして表を抽出してもらいましょう。
すると、なんということでしょう。
日本語も英語も数字も、しっかり表形式で抽出してくれるではありませんか!!
精度は、、、まぁ。
ぜんぶ転記するよりかはマシだろ。
![血まみれ](https://pxa.xsrv.jp/test103/wp-content/uploads/2021/03/MusyokuTensei_ep10_0001-300x169.jpg)
必要に応じて値は編集しておくこと!
たぶんスマホでやったほうが楽。
整形が終わったら、コピー。
Excel に貼り付ける
コピーしてあるから、スマホのクリップボードに表形式で入ってる。
Excelを起動したらワークシートを新規作成して、貼り付けましょう。
長押しすればメニューが出てくるよ。
![コンピューター](https://pxa.xsrv.jp/test103/wp-content/uploads/2019/11/computer-030-300x169.jpg)
貼り付けたら、再度データを確認。
セルの結合とかが厄介なんだよね。。
結合解除とかはスマホのオペレーションもいい感じだぞ。
右下の上向き矢印マークから使ってみよう!
編集が終わったら、名前を付けて保存。
OneDriveを使ってパソコンへ連携する。
パソコンで処理する
ここまでくればあとはどーとでも。
OneDriveのExcelには、ちゃんと表形式でデータが保存されてるんだから。
書式設定の細かいところが微妙だから、別のシートに値貼り付けして利用することをお勧めします。
画像ファイルならなんとかなる
てなわけで、画像ファイルならどーとでもなるんだよ。
画像ってのは、写真撮影してもいーし、スキャンしてもいーし、画面コピーからもらってきてもいーし。
ゆがみのないキレイな表のかたちになってれば、それなりに読んでくれる!
特に、PDFでもらっちゃったファイルだからって諦めてないで、画面コピーなりAdobe Readerとかのコピー機能なりを使って、きれいな画像ファイルを作り出すんだっ!!
![コンピューター](https://pxa.xsrv.jp/test103/wp-content/uploads/2020/04/Dual-display-002-300x199.jpg)
Office Lensの解析能力は、無料アプリとして考えれば許容範囲内といえる精度でしょ?
写真撮影する場合は、特にゆがみのなきように。
日本語はまだまだうまく読み取れないみたいで、まっすぐでも怪しい日本語になっちゃうから。。
フォントの愛称とかもあるんだろうなぁ~
ご意見やご感想などお聞かせください! コメント機能です。