Azureで画像OCRを試したら想像以上に迷った話|Document Intelligenceでようやく動いた

Azureで画像OCRを試したら想像以上に迷った話|Document Intelligenceでようやく動いた

導入:なぜこの記事を書いたか(体験)

画像に書かれた文字を、そのままExcelや別のフォーマットに使えたら便利そう。
そう思って、Microsoft Azure の画像認識(OCR)を試してみることにしました。

ただ正直に言うと、
「ちょっと触ってみるだけ」のつもりが、かなり迷いました。

仕事と子育てが終わった夜の限られた時間。
Vision Studio、Computer Vision、Document Intelligence……
画面も名前も説明も少しずつ違い、「どれが正解なのか分からない」状態が続きました。


それでも最終的に、
Document Intelligence Studio で OCR を実際に動かすところまで辿り着けた
ので、その過程を記録として残します。

よくある悩み・失敗

今回、特に詰まったポイントは次のような点でした。

  • Vision Studio に行ったが、OCRの項目が見当たらない
  • 「Select as default resource」が出ない
  • リソースは作ったのに選択できない
  • 無料枠で本当に試せているのか不安

ネット上の解説を見ても、
画面構成が変わっていて説明と一致しない ことが多く、
「自分のやり方が間違っているのでは?」と感じやすかったです。


試したこと・調べたこと

最初は Vision Studio(Face API の画面)から入ったのですが、
OCRの導線が見つからず、何度も同じ画面に戻る状態になりました。

そこで分かったのが、

  • Computer Vision:画像向けのOCR
  • Document Intelligence:文書OCR・転記向け

という サービスの役割の違い です。

最新のAzureでは、
OCRは Document Intelligence Studio が事実上の入口になっており、
ここから「OCR / Read」を使うのが一番分かりやすいルートでした。


結論・おすすめ

結論として、
今からAzureでOCRを試すなら、Document Intelligence Studio一択 です。

理由はシンプルで、

  • OCR前提のUIで迷いにくい
  • 無料枠(F0)でも実行できる
  • 画像 → 文字 → 構造化結果が一画面で確認できる

Vision Studioで迷っている場合は、
無理に追いかけず、Document Intelligenceから始めたほうが楽だと思います。


自分の場合はこうだった

実際に行った手順は、次の通りです。

  1. Document Intelligence Studio にアクセス
  2. OCR / Read → Try it out
  3. 専用リソースを新規作成(Japan East / Free)
  4. 画像をアップロード
  5. Run analysis

これだけで、
右側に読み取られたテキスト結果が表示 されました。

「ちゃんと読めている」
この確認ができただけで、かなり安心感がありました。


まとめ

AzureのOCRは高機能ですが、
最初の入口が分かりにくいのが正直なところです。

ただ、

  • 無料で試せる
  • 一度動けば仕組みが分かる
  • Excel転記や自動化につなげやすい

という点では、
忙しい子育て世代の業務改善や副業ネタとして十分使えると感じました。

次は、
このOCR結果をどうやってExcelや任意フォーマットに使うか
を試していく予定です。

この記事を書いた人 Wrote this article