コンテキスト広告

『The Beautiful Machine』:EyeEmのローレンツ・アショフが語る、コンピュータビジョンを用いた画像の美的要素の認識

EyeEmのレビュー画像
GumGumチーム
GumGumチーム
10
公開日:
2020年9月16日
シェア

ビジュアルウェブの台頭によって変革を迫られた多くの業界のうち、ストックフォト業界もその一つです。毎日、数十億枚もの画像が撮影され、アップロードされ、オンライン上で共有される中、編集部門やマーケティング部門にとって、適切な画像を大規模かつ迅速に見つけることはますます困難になっています。 確かに、市販の画像認識ツールの多くは、猫や道路標識から森や有名人まで、あらゆる物体、風景、顔を見つけることに長けていますが、背景がぼやけた芸術的なポートレート写真となると、話は別です。


2011年にベルリンで設立されたEyeEmは、コンピュータビジョンと機械学習を活用して、画像の美的品質に基づいて画像を識別する次世代のストックフォト会社です。ここでいう「美的」とは、主に「見た目に心地よい」ものを指します。 EyeEmは、写真家がスマートフォンで最も美的価値が高く、商業的に有望な画像を特定し、同社のオンラインマーケットプレイスにアップロードできるモバイルアプリを提供しています。そこでは、(コンピュータビジョンのおかげで)ストックフォトの購入者が効率的に画像を検索し、購入することができます。この高尚で芸術的なコンピュータビジョンのアプローチはどのように機能するのでしょうか?また、なぜすべての写真家や写真編集者が、次のヴィヴィアン・メイヤーを見つけたり、あるいは自分自身が彼女のような存在として発見されたりするために、このサービスを利用すべきなのでしょうか? そこで、ベルリンを拠点とするEyeEmの創業者兼CEO、ローレンツ・アショフ氏にEyeEmが具体的にどのように機能するのかについて解説をお願いしました。


EyeEmはどのようなサービスを提供していますか?


私たちは、美学や美しさを理解するAIを開発しています。私たちが解決しようとしている課題は次の通りです。デジタル撮影技術の発明以来、人々は数兆枚もの画像を撮影しており、膨大な量のデータが蓄積され続けています。 これらすべての写真の中から関連性のあるものを見つけることはますます困難になっており、実際にそれらを効果的に精査・選別する手段が欠如しています。これは、個人の消費者にとっても、プロフェッショナルの分野に携わる人々にとっても同様に大きな課題です。そこで私たちは、アマチュアからプロまで約2,200万人の写真家からなるネットワークを備えたAndroidおよびiOSアプリを開発し、彼らがそこに画像をアップロードできるようにしました。 その後、当社独自のコンピュータビジョンおよび 機械学習技術が、投稿された 画像を審査し、美的観点だけでなく商業的価値の観点からも優れた画像を選定します。この製品は、アップロードした画像で収益を得たいと考えるアマチュア・プロを問わずすべての写真家だけでなく、関連性の高い画像を探す必要があるメディア企業の写真編集者やマーケティング部門の担当者も対象としています。また、このアプリを使えば、スマートフォン上で探している種類の写真をより素早く見つけることができます。


その最後の機能はGoogleフォトとよく似ていますが、EyeEmとの違いは何ですか?


まあ、重要なのは、私たちがストックフォトに注力しているという点です。それが私たちのビジネスモデルであり、一般消費者向けのGoogleフォトとは異なります。しかし、技術的な仕組みにおける大きな違いは、私たちが単なる内容ではなく、写真の美しさを理解するという「美学」に重点を置いている点にあります。 Googleフォトと同様に、山や顔、動物、物体などが写っている画像にラベルを付けるといったキーワード付けを多く行っていますが、当社のキーワードは、基本的な被写体というよりも、美学や構図に焦点を当てたものが多くあります。簡単に言えば、基本的に世界トップクラスの写真家たちが撮影した画像を機械に学習させ、ディープラーニングを用いて、これらの美的に優れた画像に共通する特徴を見つけ出しているのです。


また、実際にベンチマークを行うため、これらの画像の一部を人間にも確認してもらっています。つまり、この技術を活用して「珠玉の作品」を特定し、システムがあらゆる画像の中から注目すべきポイントを識別できるよう体系的に学習させていますが、その上で、人間が好むものと機械が好むものを比較・検証し、いわば強化学習のような形で調整を行っているのです。これが、特にディープラーニングにおいては成功の鍵となります。 そうすれば、ユーザーが撮影したばかりのどんな画像でも投入することができ、本質的には「さて、美的観点から見て、この画像があなたの心に響き、美しいと感じる可能性はどれくらいあるでしょうか」と問うことができるのです。 この基本的な技術を活用すれば、例えば、スマートフォンの画像をスキャンして、その中にある最も美しい画像を抽出したり、同じ被写体を5回や6回撮影した画像の中から、どれがベストショットかを教えてくれたりすることも可能になります。


その機械は実際に美的ルールを導き出しているのでしょうか?


従来の意味での「美」というわけではありませんし、機械は常に学習を続けています。これは、人間が持つ美学の定義に対する理解と、機械の働き方や美学の理解の仕方がいかに衝突するかを示す良い例です。人間とは異なり、機械には決まったルールがなく、「対称性は美しい」や「黄金比は美しい」といった美的概念に基づいて考えることもありません。その仕組みは、それよりもはるかに抽象的なものです。 私たち人間は、なぜそれが美しいのかを理解できないかもしれませんが、ただ「美しい」と直感的に感じ取ることができます。一方、機械は、美的品質と見なされる要素と相関するパターンを特定することができます。最終的には、対称性や黄金比に基づいた画像を見つけ出すことができ、それを迅速かつ大規模に行うことができます。しかし、機械は非厳密でヒューリスティックな方法で学習するため、その仕組みを正確に言葉で説明することはできず、多くの人々にとってそれはもどかしいことなのです。


雑誌やウェブサイト、マーケティング部門のフォトエディターの中には、これに苛立ちを感じる人もいるかもしれません。


まあ、自分の仕事を実際に強化してくれる技術があるという考えに、確かに苛立ちを覚える人もいるでしょう。残念ながら、それはAIと職場をめぐる議論の多くが、少し単純化されすぎているからなのです。しかし、先ほども述べたように、編集やマーケティングの現場における重要な課題の一つは、ストックフォトや動画サイトで写真や動画を探そうとしても、その美的感覚がまちまちであることです。 時には、画像検索の結果がまったく本物らしくなく、自分にとって本当に適切な素材を見つけるのに膨大な時間がかかってしまうこともあります。 当社のテクノロジーは、ユーザーが求めている美的感覚に合致したコンテンツのみを表示することを保証します。これにより、一度に多くの候補を処理できるようになり、検索や不適切な素材の除外に費やす時間を削減できます。その結果、他のタスクに集中し、実際のキュレーション作業にしっかりと取り組むことが可能になります。


また、EyeEmのようなAIツールに脅威を感じているかもしれないプロの写真家たちの不安を和らげるという点では、その多くはインターフェースに起因していると考えています。私たちは単に提案をするだけで、利用者はそれを受け入れるか、無視するか自由に選べます。「これが現時点で最高の画像です」などとは決して言わず、代わりに「これはどうですか」や「これならいかがですか」といった具合に、非常に自然な形で提案するようにしています。


では、検索結果はどのように絞り込まれるのでしょうか? 何と言っても、美は見る人の目にあるのですから。


このツールについて伝えなければならない重要なメッセージの一つは、写真編集者、写真家、ブランドなどが、投入したコンテンツに基づいてツールを学習させ、制御できるという点だと思います。 どのような美的感覚でも学習させることができます。例えば、ポートレートのみを提供すれば、返ってくるのもポートレートだけになります。あるいは、被写界深度やクローズアップのポートレート、あるいはモノクロ写真だけに絞り込むことも可能です。特定の美的スタイルを持つブランドにとっては、大幅な時間の節約になるでしょう。


当社の顧客の一つに、ボストン・コンサルティング・グループがあります。同社は世界中に約8,000人のコンサルタントを擁しており、プレゼンテーションやパンフレット、あるいはクライアントとのあらゆるやり取りにおいて、視覚的な観点からどのような表現手法を用いるべきかを、コンサルタントたちが理解することが求められています。また、コンサルタントたちはコンサルティングやビジネスの面では非常に優秀であっても、美学、とりわけブランドに合致した美学については、直感的に理解できていない場合があるのです。


そこで、BCGのマーケティングチームは、同社が最近実施したリブランディングに沿った、さまざまなトピックやシーンなどを網羅した約30点の画像を提供してくれました。その後、私たちは独自の美学分析技術を用いて、マーケティングチームから提供された情報を基にパーソナライズされた検索エンジンフィルターを構築しました。これにより、当社のプラットフォームを通じて写真画像の検索が行われるたびに、BCGのコンサルタントには、ブランドの新しい美学に沿ったコンテンツが表示されるようになります。


先ほど、EyeEmでは商業的価値のある画像も検索できるとおっしゃっていましたね。これはどのように機能するのでしょうか?


現在、私たちはさまざまなアプローチに取り組んでいます。例えば、IM Socialというツールを開発したばかりですが、これを使えばブランドのInstagramアカウントを視覚的に分析できます。過去にどのような投稿が行われたか、それらの投稿がどのような反響を呼んだかを確認し、それに基づいてフォロワーの共感を呼ぶ美的スタイルを把握し、将来的にブランドのフォロワーがエンゲージメントを示す可能性が高い画像を予測・提案できるようになります。 また、この技術を活用して、Instagram、Facebook、あるいはオンライン上の広告キャンペーンに対して、インテリジェントなレコメンデーションを提供する取り組みも進めています。この同じ考え方を応用すれば、ビジュアルデータに実際の広告のコンバージョンデータを組み込むことも可能です。これにより、ブランドにふさわしい画像を予測できるだけでなく、コンバージョン率の高い画像も予測できるようになります。


EyeEmの今後の展開は?


動画の取り組みは始まったばかりですが、動画には複数のシーンや視点が含まれるため、はるかに複雑で、解決すべき課題がたくさんあります。最終的には、一連の写真として処理しています。また、機械による美的批評を行う機能のプロトタイプ開発も進めています。つまり、写真の構図を特定の方法で撮影・調整するための提案や、画像の美的品質を高めるためにどのようなフィルターや色補正を適用すべきかといった提案を行う機能です。 これは現時点では私たちの主な目標ではありませんが、機械が美学を理解する抽象的な方法を、人間にとって理解しやすい言葉や具体的な行動指針に変換することは、間違いなく興味深い課題となるでしょう。AIと人間の間の適切なインターフェースとは何かというこの交点は非常に複雑であり、まだ誰もそれを完全に確立できていません。


マリーナ・エスメラルド

洞察、調査、そして現実的な考え方。