画像認識技術は、近年さまざまな分野で活用の幅が広がっています。たとえば顔認証や文字認識の技術がそのひとつです。一部のスマートフォンでは機能が搭載されるなど、現在では日常生活でも実用できるレベルにまでなりました。
本記事では、画像認識技術とは何か、その仕組みやプロセス、具体的な事例まで解説いたします。画像認識の実装・導入をご検討されている方はぜひ参考にしてください。
画像認識とは
画像認識とは、コンピュータが画像に映っているものを理解し、分析する技術のことです。具体的には、画像に写っている物体や人物を識別したり、文字を読み取ったり、画像全体の構図を分析したりすることができます。近年では人工知能(AI)の発展により、画像認識の技術は飛躍的に進化しており、さまざまな分野で活躍の幅が広がっています。
実際に、株式会社アイ・ティ・アールの調査によると、2022年度の画像認識市場の売上金額は93億円で、前年度比32.9%増となったようです。この成長は今後もますます進むことが予想されており、2027年度には約340億円に達することが期待されています。
画像認識の歴史
画像認識の歴史は古く、1950年代にはバーコードの読み取り装置が開発されました。その後、テンプレートマッチングと呼ばれる手法が主流となり、画像の一部とテンプレートと呼ばれる比較対象を一致させることで、画像認識を行っていました。
しかし、テンプレートマッチングは画像の角度や光などの影響を受けやすく、精度が低かったため、近年ではディープラーニングと呼ばれる手法を用いた画像認識技術が主流となっています。
バーコード
バーコードとは製品情報などを縞模様で表したものです。読み取り装置で読み取ることで、情報を簡単に取得することができます。現在でもスーパーマーケットでの商品管理や、物流における荷物の追跡など、さまざまな分野で広く利用されています。
テンプレートマッチング
テンプレートマッチングは、画像の一部とテンプレートと呼ばれる比較対象を一致させることで、画像認識を行う手法のことです。
テンプレートをあらかじめ用意しておき、画像と比較することで、画像に写っているものを識別することができます。比較的シンプルな手法ですが、画像の角度や光などの影響を受けやすく精度が低いことから、近年ではあまり利用されていません。
ディープラーニング
ディープラーニングは人工知能の一種で、人間の脳の構造を模倣したニューラルネットワークと呼ばれる仕組みを用いて学習を行います。2016年には「AlphaGo(アルファ碁)」と呼ばれる囲碁AIが、プロ棋士を破ったことで話題を集めました。
ディープラーニングは、コンピューターが大量のデータを自ら解析して、データの特徴を抽出できる点が特徴です。大量の画像データから学習を行うことで、高い精度で画像を認識することができます。
画像認識が注目を集める背景
画像認識が注目を集めている背景には、AI技術とカメラ技術の双方の発展があります。
AI技術の発達
ディープラーニングの進歩やビッグデータの出現により、AI技術は飛躍的に発展しています。東京大学大学院・松尾豊特任准教授提出資料によると、2013年からは「第3次AIブーム」と位置づけられ、人工知能がデータから学習をする時代になりました。ディープラーニングは、画像認識を含むさまざまなタスクにおいて高い精度を実現できるため、画像認識技術の発展に大きく貢献しています。
高精度カメラの登場
近年では、スマートフォンなどの小さなデバイスでも高画質な画像を撮影できるようになり、画像認識に必要な学習データの記録が容易になっています。また、近年では360度カメラや深度カメラなど、より高度な機能を備えたカメラも登場しており、今後は画像認識技術のさらなる発展が期待されています。
画像認識の種類
画像認識には、下記のようなさまざまな種類があります。
- 物体認識
- 物体検出
- 顔認証
- 文字認証
物体認識
物体認識とは、画像に映る物体を特定して分類する技術のことです。たとえば「画像に写っている人が誰なのか」「どのような物体が写っているのか」などを識別することができます。物体認識は、顔認証や画像検索などの技術に利用されています。
物体検出
物体検出とは、画像に映る物体の位置を特定する技術のことです。物体認識と異なり、物体検出では物体の種類だけでなく「画像のどの位置に・どのような物体が写っているのか」を識別することができます。物体検出は、自動運転や防犯カメラなどの技術に利用されています。
顔認証
顔認証とは、目・鼻・口などの顔の特徴をもとに本人確認を行う技術のことです。スマートフォンやセキュリティシステムなど、さまざまな分野で利用されています。セキュリティレベルが高く、非接触で認証できるため衛生的であることから、今後も活用の幅が広がることが想定されます。
文字認証
文字認証とは、画像に含まれる文字データを認識する技術のことです。別名「OCR(Optical Character Recognition)」とも呼ばれます。書類の電子化や画像内のテキストデータの抽出などに利用されています。手入力の転記作業や紙書類を削減し、業務効率化や生産性向上などを期待できます。
画像認識の仕組み
画像認識の仕組みは、下記3つのステップから成り立ちます。
- 画像処理
- 特徴抽出
- 機械学習
画像処理
画像処理とは、画像データを解析するためにノイズを除去したり、エッジを検出したりする処理のことです。画像処理を行うことで、画像データがより鮮明になり、後の処理が容易になります。AIに正しい学習を行わせるためには、適切な画像処理が求められるため、大変重要な工程であるといえます。
特徴抽出
特徴抽出とは、画像データに含まれる情報や特徴を抽出するために、さまざまな計算や分析を行う処理のことです。たとえば物体の色・形・テクスチャなどの特徴を抽出することができます。人間が専門知識に基づいて、画像から重要な特徴を手作業で抽出する方法もあれば、機械学習やディープラーニングなどの技術を用いて自動で抽出する方法もあります。
機械学習
機械学習は、抽出された特徴からパターンを学習する処理です。機械学習によって、コンピュータは画像に写っているものを理解し、分析することができます。繰り返し学習をさせることで、データに含まれる特徴や規則性を発見する精度を高めることができます。
機械学習は、大きく分けると「教師あり学習」「教師なし学習」「強化学習」の3つに分類されます。
教師あり学習
「教師データ」と呼ばれる正解ラベル付きのデータを用いて、モデルを学習させる手法のこと。適切な教師データを用いることで、高い精度でラベルを予測することができます。システムの不正検出など、「正解」や「不正解」が明確な場合に用いられるケースが多いです。
教師なし学習
「教師データ」と呼ばれる正解ラベル付きのデータを与えずに、データから内在する構造や特徴を自動的に学習させる手法のこと。教師データの収集や作成が困難な場合に活用できます。「正解」や「不世界」が明確ではない領域で、クラスタリングや次元削減などの技術を用いて、データ内にある未知のパターンを発見することが可能です。
強化学習
強化学習は「教師あり学習」や「教師なし学習」のように、正解データを与えられたり、明確なゴールが設定されているわけではありません。AIが試行錯誤を繰り返しながら、報酬を最大化する行動を学習していく手法です。
画像認識の分野では真偽を判断する場面が多く、一般的にはデータセットを用意して「教師あり学習」を用いて実装するケースが多いでしょう。
画像認識モデルの構築方法
画像認識モデルを構築するには、下記のプロセスが必要です。
- データ集計/加工
- ディープラーニングモデルの定義
- 実装/検証
- 再学習
データ集計/加工
まずは、画像認識モデルを学習させるためのデータを集計/加工する必要があります。データには、学習させたい画像と、その画像に写っているものに関するラベル情報が必要です。
データを収集する際には、下記のようなポイントに注意をする必要があります。
データの量
モデルを学習させるためには、十分な量のデータが必要です。データの量が少ないと、モデルが過学習し、汎化性能が低くなります。その結果、新しいデータに対してうまく適応できなくなるおそれがあります。
データの多様性
モデルがあらゆる状況に対応できるようにするためには、多様なデータを集める必要があります。たとえば、さまざまな角度や光の条件で撮影された画像、さまざまな大きさや種類の物体が写っている画像などを集める必要があります。
データの品質
データにはノイズや欠損値が含まれないようにする必要があります。ノイズや欠損値がある場合、モデルの精度が低下する可能性があります。データを収集したら、画像をリサイズしたり、色調を調整したり、不要な部分をトリミングしたりなど、必要な加工を行います。
ディープラーニングモデルの定義
データの集計/加工が完了したら、ディープラーニングモデルを定義します。ディープラーニングモデルには、さまざまな種類がありますが、画像認識によく用いられるモデルとしては、畳み込みニューラルネットワーク(CNN)や変形オートエンコーダ(VAE)などが挙げられます。
モデルを定義する際には、下記のようなポイントに注意をする必要があります。
モデルの構造
モデルの構造は、画像認識の精度に大きく影響します。モデルの構造を決定するには、一定の専門知識や経験値、試行錯誤などが必要となります。
ハイパーパラメータ
モデルには、学習率やバッチサイズなどのハイパーパラメータと呼ばれる設定値があります。ハイパーパラメータの設定値は、モデルの精度に影響するものです。アルゴリズムの設定に関わる部分のため、人間が手動でチューニングを行うケースもあります。
損失関数
モデルの精度を評価するために、損失関数と呼ばれる指標を定義する必要があります。これはモデルの予測値と真の値を比べて、誤差がどれほどあるのかを数値化するための手段です。
実装/検証
モデルを定義したら、実装したうえで検証を行います。実装には、TensorFlowやPyTorchなどのフレームワークを用いることができます。
検証では、モデルを学習データと検証データに分けて評価を行います。学習データで良い結果が出ても、検証データで良い結果が出ない場合は、モデルに過学習が生じている可能性があります。過学習を防ぐためには、データの量を増やしたり、モデルの構造を変更したりする必要があります。
再学習
検証の結果が良好であれば、モデルを本番環境にデプロイすることができます。しかし、モデルの精度が十分でない場合は、再学習を行う必要があります。
再学習を行う際には、下記のようなポイントに注意をする必要があります。
データの追加
データの量が不足している場合には、データの量を増やすことで、モデルの精度を向上させることができます。
モデルの修正
モデルの構造を変更したり、ハイパーパラメータの設定値を変更したりすることで、モデルの精度を向上させることができます。
学習方法の変更
データの追加やモデルの修正でも対応できない場合は、そもそもの学習方法を変更することで、モデルの精度を向上させることができます。
このように、AIの導入にはデータの集計/加工からディープラーニングモデルの定義、実装/検証、再学習まで一気通貫した取り組みが求められます。
画像認識の事例
画像認識の技術は、業種業界を問わずさまざまな分野で活用されています。
- 顔認証:スマートフォンやセキュリティシステムなどの本人確認に利用
- 自動運転:周囲の状況を認識し、安全運転を支援
- 画像検索:画像の内容を理解し、検索結果を絞り込むことが可能
- 医療診断:医療画像を分析し、病気を診断することが可能
- 小売:商品の在庫管理や顧客分析などが可能
たとえば、顔認証の技術は羽田空港や千葉県の山万ユーカリが丘線などで、すでに実現しています。「顔パス」だけで搭乗手続きや改札を通過することが可能です。また、画像検索の技術は株式会社ファーストリテイリングが運営する「StyleHint(スタイルヒント)」というアプリにて、コーディネート検索の機能として実装されています。医療診断の分野では、富士フイルム株式会社が「COVID-19肺炎画像解析プログラム」を開発し、効率的なCT検査工程を実現しました。
このように、画像認識の技術は比較的大量の学習データを収集できる大手企業を中心に、近年導入の場面が増えています。今後も画像認識技術やカメラデバイスの発展に伴い、活用する企業が増えていくことが予想されるでしょう。
まとめ
画像認識は、AI技術やカメラ技術の発展に伴い、近年飛躍的な進化を遂げています。なかでも物体認識・物体検出・顔認証・文字認証などの技術は、さまざまな分野で活用の幅が広がっています。
画像認識技術を実装する際には「データ集計/加工」「ディープラーニングモデルの定義」「実装/検証」「再学習」などのプロセスが必要です。学習データの量と質にこだわり、AIが適切な判断ができるような仕組みを構築することが求められます。
画像認識を導入する際には、導入する目的を明確に定める必要があります。とくに自社開発の場合は、社内の工数を一定必要とするため「課題を解決するには、果たしてAIが最適な手段なのか」を改めて考えてから取り組むのがよいでしょう。また、導入して終わりではなく、リリース後の運用も欠かせません。とくに品質管理の工程でAIを活用する場合には、事前に定めたチェックリストをもとに点検を行ったり、学習データを更新/改善してフィードバックを行ったりなどの取り組みが必要です。
このように画像認識の導入では、事前の構想から実装、運用までを一気通貫で取り組むことが求められます。しかし、人手不足が叫ばれる昨今では社内でIT人材が不足し、プロジェクトを推進することが難しいと感じられる企業様も多いのではないでしょうか。そのような場合には、専門のAI支援業者に依頼をするのがおすすめです。
株式会社オルツでは、パーソナル人工知能を中心としたAI活用・LLM開発・DX推進を支援しています。ヒアリングの内容にもとづいて最適なKPIを設定し、約3ヶ月〜半年の期間をかけてPoC(実証実験)を実施することが可能です。ヒアリングからコンサルティング、実証実験、開発、運用まで一気通貫でご支援いたしますので、少しでもご興味のある方は下記のお問い合わせフォームよりご連絡ください。