CVPR 2024 現地レポート【DAY２】

ワークショップ：Implicit Neural Representation for Vision

NeRF が台頭して以来、3D 空間を潜在空間として表現する手法、Implicit Neural Representaiton (INR) が注目を集めている。特に省メモリかつ高精度で 3D 空間以外にも多様な入力に対して同一のフレームワークが適用できることから分野の発展が著しい。本ワークショップは INR を用いる際の利点欠点、適用例、未解決課題等を研究者 6 人が講演する。とりわけ最初の Vincent Sitzmann 氏による講演は圧巻であった。AI に 3D 空間情報を理解させることを最大目標として、INR を導入するまでの経緯、導入してから課題を特定しては解決するという繰り返しの道筋を、実際の過去研究に沿って紹介。特に INR 表現では局所性情報がつぶれるため、それを如何に補正するかが重要であるというメッセージを感じた。その点で 3DGS は優れており、ワークショップ全体を通して何度もその名前が出てきた。他には Srinath Sridhar 氏による、INR を通した外界との動的なインタラクションモデリングの話も興味深かった。人間が外界の刺激に対して動的に対応して相互作用する能力を機械に体得させることを目標に、物体を手でつかむ際の手の構造モデリング及び物体との接地面を 3DGS で精緻にモデリングする実例研究を紹介。他にも動的シーンのモデリングのために専用のデータセット構築および既存 INR 手法による精度限界を調査したり、より野心的な試みとして人間が体の制御能力を獲得するまでの長期的な変化をモデリングするために生後数か月の子供を 360 度モニタリングするシステムの開発にまで手を広げている。

ワークショップ：What’s next for multi modal foundation model

マルチモーダルな基盤モデル、とくに vision-language model (VLM) は、大量の画像と説明文のペアを学習させることで、画像の内容を言語的に “理解” しているように振る舞うモデルだ。様々なタスクに VLM を組み合わせることで、人とモデルとの、自然言語を介した相互作用が可能になる。本セッションでは、VLM 研究の最前線が紹介されていた。まずは動画への適用。数百フレームにわたる映像を理解して内容についての質問に答えるタスクや、カメラの映像と人の命令文から適切な行動を計画するロボットの研究が紹介された。次にエッジデバイスへの搭載。精度劣化を抑制した量子化と蒸留を用いて、エッジデバイスで使用可能な VLM を開発した研究が紹介された。そしてオープンソース化。研究のすそ野を広げるためには必要不可欠だが、大規模にデータを取る投資ができるのは大企業に限定される。そこで ChatGPT などの学習済みモデルを用いていかに学習データを作り出すかという研究が紹介された。基盤モデルにおいて重要な課題である因果関係のモデル化についての理論的研究が有効打になるとしつつも、未解決と位置付ける発表者が多かったのが印象的だった。