テクノ雑学

第132回 もはやピント合わせは不要? 最適な表情までもナビするデジタルカメラ

年末年始は、クリスマスやお正月の会合、さらには、忘年会や新年会などのイベントが集中し、写真を撮る機会が増える時期ですね。最近のデジタルカメラは非常に多機能化していますが、中でも「顔認識」関連技術の進化の速さには、驚かされることが多いものです。今回は、その「顔認識」についてとりあげてみたいと思います。

 ただし、最初にお断りしておきたいのですが、カメラメーカーにとって顔認識関連の技術は重要な機密事項に属するもので、そのしくみについて公式に語られたものは、あまり多くありません。新製品発表会などの機会に技術者に話を聞いても、ほとんどの場合、ごく基本的な一般論しか語ってもらえません。よって、今回は筆者が過去に取材した事柄をベースに、さまざまな資料を元にした推測も混じえて書かせていただきます。

今後の成長株、パターン認識のしくみと流れ

「顔認識機能」とは、デジタルカメラの撮像素子に入ってくる光学的情報の中に、人間の顔と判断できる要素が含まれているか否かを判断し、含まれていた場合、その部分にピントや露出を合わせる機能です。たとえば風景をバックにスナップ写真を撮る場合、やはりピントは人間、それも顔に合っていることが望ましいですよね。しかし、一昔前のコンパクトデジタルカメラでは、オートフォーカス(AF)機能でピントを合わせる位置を任意に調整するのにコツが必要なものや、ピントがきちんと合っているかを確認しづらいものが少なくありませんでした。そのような事情によるピンボケを解消するために考案されたのが、顔認識機能です。

 ここ数年の間に登場したデジタルカメラでは、顔認識機能をさらに進化させて、顔部分の色調を調整する(「美肌モード」などと呼ばれます)、人が笑ったと判断したら、その瞬間にシャッターを切る(「スマイルシャッター」などと呼ばれます)、大人の顔と子どもの顔が同時にフレーム内に収まっていた場合は、子どもの顔にピントを合わせたり、あらかじめ登録した人物の顔に優先的にピントを合わせる……といったように、機能がどんどん拡張されています。

 このような顔認識技術の基本にあるのは、情報処理の「パターン認識」に関連する技術です。パターン認識とは、「入力(観測)」に対してなんらかの処理を施すことで、「出力(推定量)」の精度を高めたり、分類を容易にするための技術分野の総称です。非常に奥が深く、かつ広い範囲に応用できる技術分野で、たとえば、ここから派生した「データマイニング」技術は、ネットオークション上のユーザーの行動をパターン化することで詐欺行為などを未然に防止したり、果ては金融市場の動向予測などにも応用されているのですが、話を簡単にするため、とりあえず信号処理の基本である「Signal/Noise」に当てはめて考えてみましょう。

 会議の記録を残すため、ICレコーダーを使って録音するとします。このとき、高感度なマイクを使い、録音ファイルのビットレートを高くするほど、取り込んで保存できる音の情報量(=Signal)が増え、「いい音」で録音できます。ただし、情報量が増えると、室内のエアコン作動音などの雑音(=Noise)も一緒に録音されてしまうといった問題も生じます。それを避けるため、最近のICレコーダーには、マイクの感度や指向性を調整したり、「ローパスフィルタ」を使って特定の周波数のノイズをカットしながら録音する機能が搭載されています。いずれも、種々雑多な情報の中からSignalだけを残し、Noiseは分離・排除するためのものと考えることができます。音声認識の技術もハイペースで進歩していますから、そう遠くない将来には、より高度なSignal/Noise処理が期待できます。たとえば、大勢の人がいっせいにしゃべっていても、あらかじめ登録した人の声だけを録音する、といったことも可能になると考えられます。

 このように、種々雑多な情報の中から、目的の情報だけを取り出す、もしくは、情報を種類ごとに分類するため、特定の事柄に共通する要素を捉え、パターン化することが、「パターン認識」の基本です。そして顔認識技術で用いられている「画像認識」は、録音における「音声」を、「光学情報」に置き換えたようなものと考えていいでしょう。

■ 豊富なデータベースで、高精度の認識が可能

 では、いったい、どうやって人間の顔を認識しているのでしょう?
 さまざまな方式がありますが、ここでは、最も広く普及していると考えられる手順を例に説明してみます。

 最初に、人間の「顔」を構成する各パーツと、その配置を幾何学的情報に置き換えて数値化し、それらを特定の「パターン」として集約したテンプレートを作っておきます。人の顔は、地域や性別、年代などによって大きく異なっていますが、口が目より上に付いている人はいませんし、鼻が口より下に付いている人もいません。そのような定義を行いつつ、顔の構成要素を純粋な幾何学的パターンに置き換えると、想像よりは狭い範囲に収まってしまうようです。テンプレート化にあたっては、色の濃淡情報が用いられることが多いようです。デジタル画像は、非常に高精細とはいえ基本的にはドットマトリクス*ですから、顔表面にある凹凸によって生じる陰影を、色の濃淡パターンとして扱うことで、多くのパターンを高速に認識することができます。

*ドットマトリクス: 小さな点(ドット)の集合(マトリクス)で文字や図形を表現する方式。一般に使われているプリンタには、さまざまな印刷方式があるが、そのほとんどはドットマトリクス方式に分類できる。

 

ここからが実際に撮影する場合の手順になります。顔認識の基本は、撮像素子から入力された光学的な情報を2次元の画像データとして扱い、特定の処理を加えることで、「パターン」として認識できるようにすることです。おおざっぱな流れとしては、最初に「顔領域の検出と切り出し」を行います。撮像素子に入力された光学情報を信号化して処理装置に送り、その中に「顔」と判断できるパターンがあるかどうかを調べる工程です。顔が検出されたら、その部分の向きが基準(まっすぐ正面を向いた)状態に変換する「正規化処理」を行ってから、そこにある「特徴点」を抽出します。ここでいう特徴とは、両目の距離や鼻の幅といった「幾何学的特徴」や、顔の色彩やその変化と濃淡、また画像情報の「境目」や「角」などを検出して利用する「パターン分布特徴」などを指します。そして最後に、ここまでの作業で算出された顔の情報を、データベースに登録済みのパターンと照合して、その顔の持ち主の年齢や性別といった属性を判別します。

 顔領域の検出は、「肌色領域検出」と「テンプレートマッチング」を組み合わせて使うことが多いようです。人間の肌と推測できる色の範囲を決めておき、画像の中にそれが含まれていたら、色の濃淡パターンに置き換えて数値化したテンプレートと照合することで、顔か否かを判断します。
 


 

画像中に顔と判断できる情報が見つかったら、次に「ガボールフィルタ」を使って特徴点の抽出を行ないます。ガボールフィルタは、人間の視覚処理の一部をモデル化したもので、難しく言うと「ガウス関数を用いて、サイン(SIN)/コサイン(COS)波などのパターンと位置を区別する空間フィルタ」ということになりますが、要は画像を細分化して方向を変えるといったフィルタ処理を行い、それぞれの局所的な濃淡の情報を取り出しながら、周期性や方向性のパターン認知の精度を高めるしくみと考えればいいでしょう。

 次に、パターンを特定の形に固定した上で処理を加えながら、パターンと周囲の波形がどのように変化するかを観察し、その特徴を抽出します。この過程で、広い周波数に渡って解析できる「ウェーブレット関数」を用いることから、この手順を「ガボール・ウェーブレット変換」と呼びます。この手法は、画像の局所的な情報を使って判断するため、照明などの影響を受けにくいこと、さまざまな方向と濃淡の周期による特徴情報が抽出できるので、顔の向きによる濃淡パターンの変化などにも対応しやすいといった特徴から、個人認証などの高度な顔認識システムに多く採用されています。

 このような計算処理によって得られた情報と、データベース化されている統計データとを照合し、「人間の顔」であると判断できるパターンの有無や、その属性を判断しているわけです。

 最後に、副次的な処理を行います。デジタルカメラは、撮像素子から入力された光学情報を元に、「画像処理エンジン」が特定のルールに沿って「絵を描く」ものです。そのルールの中に、「顔があったら、肌部分の色調やコントラストを調整して、より自然で美しく見えるようにする」といった機能を実現していくわけです。笑顔を認知してシャッターを切るには、「笑顔データベース」を使う手法や、「顔を認知→口を認知→口角が持ち上がったり、歯が見えたら笑顔」と認知する手法が用いられています。また、顔の持ち主の属性を判断することで、冒頭に記した「子どもの顔に優先的にピントを合わせる」といった処理も可能になります。

 顔認識技術は、今後、さまざまな分野に応用されていくと予想されます。たとえば、自動車のモニタ用カメラに応用すれば、特定の状況(たとえば駐車のための操作中など)で、周囲に人がいることを察知して注意喚起する、といった用途が考えられます。
 反面、公共の場所に設置される防犯用カメラなどへの応用は、プライバシー侵害の観点から議論が必要なところです。用途と、その功罪については、みなさんも関心を持って見守り続けていただきたいと思います。


著者プロフィール:松田勇治(マツダユウジ)
1964年東京都出身。青山学院大学法学部卒業。在学中よりフリーランスライター/エディターとして活動。
卒業後、雑誌編集部勤務を経て独立。
現在はMotorFan illustrated誌、日経トレンディネットなどに執筆。
著書/共著書/編集協力書
「手にとるようにWindows用語がわかる本」「手にとるようにパソコン用語がわかる本 2004年版」(かんき出版)
「記録型DVD完全マスター2003」「買う!録る!楽しむ!HDD&DVDレコーダー」「PC自作の鉄則!2005」(日経BP社)
「図解雑学・量子コンピュータ」「最新!自動車エンジン技術がわかる本」(ナツメ社)など

TDKは磁性技術で世界をリードする総合電子部品メーカーです

TDKについて

PickUp Tagsよく見られているタグ

Recommendedこの記事を見た人はこちらも見ています

テクノ雑学

第133回 家庭にもいよいよ進出! 進化する3D映像の世界

テクノ雑学

第134回 次世代自動車用エンジンの主流 — ガソリン直噴 —

テクノロジーの進化:過去・現在・未来をつなぐ

AIの未来:ChatGPTはどのように世界を変えるのか?

PickUp Contents

PAGE TOP