AIで画像を2Dから3Dまで急速に転換できるのです!

初めに

3Dという立体感のある画像やモデルは幅広い分野で使われています。AI(人工知能)はすでに従来それを作り上げるための時間と手間を大幅に削減しました。普通の2Dの画像を製作材料にするだけでいいです。

3D画像やモデルの応用分野を考えますと、下記などの事例は挙げられます。

  1. ゲームのキャラや背景
  2. インテリア設計プラン
  3. 建物の効果図
  4. VR(仮想現実)
  5. AR(拡張現実)
  6. 動画CG
  7. 芸術創作
  8. 教学デモ
  9. ニコニコ動画のMMD動画
  10. YouTubeの自作3D動画

何のまともな用途がなくても自分の好きなアニメキャラ或いは旅行に出会った風景を3Dとして立ち上げて3Dプリンターで事物を作り出したのもいい記念になるのではないですか。というような使用場面を想像しても果てがありません。

それでは、まず2D画面を3Dに転換するAIの技術の背景を紹介して行きましょう。

画面を2Dから3Dまで転換するAIの技術の発展

AI=artificial intelligenceは人間の知能の運び方を真似して具体的な問題に対して判断力と処理能力を絶えずに強める技術です。人間学習のように一定の資料と素材をインプットして機械学習の段階を経たら自動に任務完成や問題解決などの結果を導きます。

もちろん、人間の大脳の神経網のような物理的基盤であるニュートラルネットワーク(Neural Network)と運行のロジックを定めたアルゴリズムが常に必要です。

画像を2Dから3D図やモードに転換する専用のAI技術は、転換の方式から考えますと、三つのタイプがあります。

  1. 対象物体の大量の原始画像をインプットしてそれらで物体の3D図を構築するタイプです。
  2. 一枚だけの画像をインプットし、そして人が方向などのパラメータを指定して3Dの様態を生成します。
  3. 一枚だけの画像と、前もっての大量学習によって形成した転換の取り扱い方向で、全自動かつ急速的に3Dの様子を生成します。次はそれぞれのタイプに対応する事例を挙げてみます。

1、Autodesk Project Photofly

img1. autodesk-project-photofly
Autodesk-Project-Photofly

3Dを構築するにはこの製品は40枚ぐらいの画像を使う必要があります。なぜなら、これで実物の的確なサイズ比例と寸法を測定できるというので、99パーセントぐらい正確さを確保できます。

中には物体表面の肌理のライブラリーが設けられていますので、出来上がりの3D効果をもっとリアルに見えるようにすることができます。この製品を使って3Dスケッチを作ることや、本物とそっくりの3Dモデルの製作をすることができます。

原始の画像の枚数が40になっていないない、少な目にしても製作可能ですが、完成品のリアル感も当然下がります。

商品や版権のあるものに写真を取りにくいなら、まず身近な物体から原始を画像を撮影してください。

2、3-Sweep

img2. 3-sweep
3-Sweep

3-Sweepは3Dモデルを作るために開発された一つの独特のソリューションで、一枚だけの画像から立体感の強い3Dモデルを作れます。清華大学とアビブ大学の共同研究によって得られた成果です。

このプログラムでユーザーにとって必要な手順は、原始画像の方向を規定することと、マウスを目標物体のボディラインに沿って移動することです。他の仕事、例えば、3Dモデルの生成、2D画像から肌理を抽出してモデルにつけることなどは全部このプログラムによって処理されます。

3Dスキャナー、数多くの画像、複雑なインターフェース、アーティストとしての素養などは全部必要ではないです。

3、NVIDIAのDIB-R

img3. nvida-dib-r
NVIDIA-DIB-R

DIB-Rは「differentiable interpolation-based renderer」の略語で翻訳すると「微分可能関数内挿をベースにしたレンダラー」となります。

左目を閉じてスクリーンを見て、次に、右目を閉じて左目を開きます。どちらの目を使用しているかによって、視野が変化することがわかります。 それは、私たちが2次元の画面を見る時、網膜によってキャプチャされた画像が組み合わされて、そこに奥行きを与え、3次元の感覚を生み出すからです。

機械学習モデルは、画像データを正確に理解できるように、これと同じ機能を必要とします。NVIDIAの研究者たちは、2D画像から3Dオブジェクトを生成するDIB-Rと呼ばれるレンダリングフレームワークを作成することで、これを可能にしました。

従来のコンピューターグラフィックスでは、パイプラインは3Dモデルを2D画面にレンダリングします。 ただし、逆のことを行うと価値のある情報を得られました。たとえば、2D画像から3Dの物体を生成できるモデルは、より優れた対象追跡を実行できます。

NVIDIAの研究者たちは、このモードを機械学習技術と統合しながら、3D転換を実現できるアーキテクチャを構築したいと考えていました。 その結果、DIB-Rは、形状、色、テクスチャ、照明などのレベルで高忠実度の転換を実現しました。

単独のNVIDIA V100 GPUでこのモデルを大量的にトレーニングするには2日かかりますが、NVIDIA GPUなしでトレーニングするには数週間かかります。 訓練が終わった時点で、DIB-Rは2D画像から3D物体を100ミリ秒未満で生成できます。

この技術のソースコードをNVIDIAがGithubで開示しました。

他の技術、製品、サービスの事例

以上の技術の例を見て二次元がどういうふうに三次元に変わるのかちょっとだけ見当を感じるでしょう。続いて、もっと多くの技術、製品、サービスの事例を紹介したいです。

1、SurfNet

img4. surf-net
Surf-Net

アメリカインディアナ州のパデュー大学の団体はAIを通じて2Dの画像を3Dのモデルに転換する技術を開発しました。同チームが公表した成果は車の画像を3Dのモデルまで積み上げる事例です。研究の責任者によりますと、カメラに撮られた画面をリアルタイムで3D模型に転換できるという目標を掲げているといいますので、テスラのように自動車の自動運転に応用される可能性が大きいです。つまり、未来この技術は瞬時に画面を処理できるとともに、少ない2D図から3Dモデルを作り上げる能力があるという二つの特性を備えないといけないです。

その特性に近づけるために、2Dの自動車画像と3Dの自動車モデル図を十数万ほどAIに勉強させつづけています。機械学習の量が増えるにつれて、SurfNetの構築精度もあがります。しかも、今後のアルゴリズムの改良によって、SurfNetの性能がさらに向上する見通しです。

残念ながら、同開発チームはアプリやソースコードなどの内容を大衆にリリースしなかったです。

2、Volume

このサービスの公式ページによりますと、Volumeは単一の2Dイメージの要素を分散させて3Dの空間で再構築するツールだそうです。単独の情景の画面を3Dアセットに変えられるこのツールが誰でも簡単に使えるように開発されています。ユーザーが出力した3D図をARとVRの分野に応用することをVolumeは励ましており、無料のAPIを公開しといています。Githubにもソースコードが公開されております。

このツールで実際に完成したものの例をご覧ください。完成した図の正面からと側面からの様子です。

img5. volume
Volume eg.1
img6. volume
Volume eg.2

点状の部分は3D空間でピクセルの深さを再定義したことの痕跡です。これにより、元々の廊下の図面は確かに立体感を表せますが、画質の劣化も深刻です!これから整備すべき所が多いでしょう。

3、デモアプリ

バイタリフィアジア会社の人工知能研究チームはが開発したこのデモアプリは、コンピューターからもスマホンからも、誰もが簡単に二次元の画像から三次元のモデルに作れることを目標としています。デモアプリはウェブサイトという形を使ってユーザーの使用の利便性を高めました。それでは、公式サイトから使い方を見ていきましょう。

img7. デモアプリ
Demoappli eg.1

ホームページのダッシュボードから予め設定された物体の類別を選んでください。クリックして中に入るとサイトが指定した実物の写真とそれに基づいて生成された3Dモデルが展示されています。3Dモデルの図はマウスで視角を自由に切り替えられます。ホームページが示している実物の類別が結構多いですが、3Dモデルが結構雑な感じですなぁ。しかも、自分で実物の画像をアップロードして3Dモデルを作ることができないです。

ホームページのメニューからSamplesを選ぶと物体を指定して「Generate」ボタンを押せば3Dモデルが出てきます。しかし、またユーザーから提供される実物の写真は使えなくて、全部サイトが限定した写真です。しかも、おかしい図がたくさんあります。一つの例を挙げます。

img8. デモアプリ
Demoappli eg.2

なんだこれ?本当の机の写真かどうかはさておき、この地下鉄の宙に浮かんでいる姿はなんなんだ?ようするに、このオンラインAI3Dモデルメーカーはまだ不完全です。これからどう変わりますかは皆さんと一緒にお立会いしていきたいです。

4、SMPLify

img9. 3d-smplify
3D-SMPLify

この技術はたった一枚の人間の写真から、その写真のポーズを含めた人物画像を3Dモデルまで構築するという問題を解決します。ではその手順やロジックをざっくりと説明していきます。この技術はボトムアップというロジックによって人体の3Dモデルを作ります。つまり骨の位置から人間の体形まで充実するという過程です。

まずは、最先端のたたCNNs=Convolutional Neural Networks(いわゆる「たたみ込みニューラルネットワーク」)を使って人体の関節の位置を探知して記録します。そして、関節を連接することで人体の「骨」の位置を描きます。次に、「骨」に「肉体」を添加することで、人体を充実します。そして、その肉体を元の写真にある人体とどれほど体形が合ったか、3D図を写真の人体と同じ比例に設定して重ねることで比較します。モデル人体の各部分のサイズが写真と同じぐらいになるまで「肉体」のパラメータを調節します。最後に、生成した3D人体の不自然な角度を、人工知能が人体構造に対する大量的学習の結果と対照し、是正します。

コードが提供されています。

5、AutoHair

この技術を使って髪の毛の3D様式を自動的に生成することができます。しかも、一つの大きいメリットを持っています。それは、髪の真実さを最大限度で再現することができます。なぜなら、この技術は厳格的に言いますと、モデルを作る原理で働くわけではなくて、シミュレーションという原理を使っています。前者が物体の幾何の属性を再現するのに対してシミュレーションは物体の物理の性質、例えば、受ける力、密度などをシミュレートします。従って、もっと自然に見えます。

ニューラルネットワークを使うこの技術はモデルの髪の毛が頭と如何に自然に結合できるかという問題を上手く解決しました。ユーザーは自分で気に入りの髪の毛を調整する必要はないです。

img10. autohair
AutoHair

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です