Image Credit:Researchers reconstruct 3D environments from eye reflections

メリーランド大学の研究者たちは、目の反射をある程度識別可能な3Dシーンに変換しました。この研究は、2D写真から環境を再構築するAI技術であるNeural Radiance Fields(NeRF)を基にしています。目の反射によるアプローチは、実用化にはまだ遠いものの、単純なポートレート写真の連続から環境を明らかにする可能性がある技術に対する魅力的な一瞥を提供しています。

チームは、一つのセンサから撮影した連続画像で人の目に捉えられた微妙な光の反射を使用し、その人の周囲の環境を判断しようとしました。カメラを固定した位置から複数の高解像度の画像を撮影し、カメラに向かっている動く人物を捉えました。次に、反射を拡大し、それらを分離し、写真で目がどこを見ているのかを計算しました。

結果(アニメーションで確認できます)は、制御された環境で人の目から明確に環境を再構築できることを示しています。合成された眼を使用したシーン(下図)は、より印象的で夢のようなシーンを生み出しました。しかし、マイリー・サイラスとレディー・ガガのミュージックビデオの目の反射をモデル化しようとした試みは、研究者たちがLEDグリッドと三脚のカメラだと推測するしかなく、実世界での使用までにはまだまだ開発が必要であることを示しています。

粗くてぼやけたシーンの再構成をするために、チームは大きな障壁を乗り越えました。例えば、角膜には人間の複雑な虹彩のテクスチャとの違いを分離するのが難しい「固有のノイズ」があります。これに対処するために、角膜の姿勢最適化(角膜の位置と向きの推定)と虹彩のテクスチャ分解(個々の虹彩に固有の特徴を抽出する)をトレーニング中に行いました。さらに、放射状のテクスチャ正則化ロス(ソース素材よりも滑らかなテクスチャをシミュレートする機械学習手法)により、反射した景色をより分離し、強調しました。

進歩と巧妙な回避方法にもかかわらず、まだ大きな障壁があります。「現在の実世界の結果は、ズームインした人の顔、照明のあるシーン、意図的な人の動きなど、『実験室の設定』から得られています」と著者は述べています。「低いセンサーの解像度、ダイナミックレンジ、モーションブラーなどの理由から、より制約のない設定(例:自然な頭の動きを伴うビデオ会議)はまだ課題が残ります。」さらに、チームは、虹彩テクスチャに関する普遍的な仮定が広く適用するには単純すぎるかもしれないと指摘しています。特に、このような制御された環境では目が広く回転することは少ないためです。

それにもかかわらず、チームは今回の進展を未来の突破口になると考えています。「この研究では、私たちの周りの世界に関する情報を明らかにするために予期せぬ偶然の視覚信号を活用する未来の探求を刺激することを望んでいます。3Dシーンの再構築の範囲を広げるものです。」この研究のより成熟したバージョンがプライバシーを侵害するような不快なものとなるかもしれませんが、今日のバージョンでは最適な状況下でも曖昧にカービィの人形を判別する程度しかできないことは安心できます。


Pexelsによる写真提供

メリーランド大学の研究者たちは、目の反射を(ある程度明瞭な)3Dシーンに変換することに成功しました。この研究は、2D写真から環境を再構築できるAI技術「Neural Radiance Fields(NeRF)」を利用しています。目の反射を利用した手法は、実用的な応用にはまだ道のりがありますが、この研究によって、シンプルなポートレート写真の連続から環境を明らかにする可能性がある技術の一端が垣間見えます。

研究チームは、人間の目に捉えられた微妙な光の反射(単一センサーから撮影された連続画像を使用)を利用して、人物の周囲の環境を推測しようとしました。固定したカメラ位置から複数枚の高解像度画像を撮影し、カメラに向かっている動く人物の目の反射に注目し、それを切り出して、写真上で目が何を見ているのかを計算しました。

その結果(以下はアニメーションで全体のセットが見られます)、制御された環境で人間の目から環境がある程度判別できる再構築がされました。合成した目を使ったシーン(下図)では、より印象的な夢のようなシーンが生成されました。しかし、マイリー・サイラスやレディ・ガガのミュージックビデオから目の反射をモデル化した場合、研究者たちはLEDグリッドと三脚に取り付けられたカメラにしか見えない曖昧なブロブが得られてしまいました。これは、この技術が実世界での利用にはまだ遠いことを示しています。

研究チームは、粗いがぼやけたシーンを再構築するために重要な障壁を乗り越えました。例えば、角膜は人間の複雑な虹彩のテクスチャと反射光を区別するのが難しい「固有のノイズ」を生み出します。この問題に対処するために、角膜の位置と向きを推定する「cornea pose optimization」と、個々の虹彩に特有の特徴を抽出する「iris texture decomposition」をトレーニング中に導入しました。さらに、「radial texture regularization loss」という機械学習技術を用いることで、反射された景色をさらに切り分けて強調することができました。

進歩と巧妙な回避策にもかかわらず、まだ重要な障壁が残っています。「現在の実世界での結果は、’ラボのセットアップ’から得られたものです。つまり、人物の顔を拡大撮影し、シーンを照らすためのスポットライトを使用し、意図的な人物の動きがあるものです」と著者は記しています。「低いセンサーの解像度、ダイナミックレンジ、モーションブラーの影響で、より自由な設定(例:自然な頭の動きのあるビデオ会議)は依然として困難だと考えています。さらに、虹彩のテクスチャに関する普遍的な仮定は、このような制御された環境とは異なり、通常よりも広範囲に回転する目には適用しにくいかもしれません。」

それにもかかわらず、チームは自身の進歩を今後の飛躍の機会と捉えています。「この研究を通じて、私たちは予期せぬ偶発的な視覚信号を利用して周囲の情報を明らかにする未来の探求を促すことを期待しています。これにより、3Dシーン再構築の可能性が広がります。」この研究のより成熟したバージョンが、プライバシーに不快な侵害をもたらすかもしれませんが、少なくとも現在のバージョンは最も理想的な条件下でも曖昧にカービィの人形が判別できる程度ですので、安心して休むことができます。

引用元記事はこちら
Researchers reconstruct 3D environments from eye reflections

error: Content is protected !!