CVPR (Conference on Computer Vision and Pattern Recognition)は、コンピュータビジョン、人工知能、機械学習、および関連分野の研究開発におけるトップカンファレンスの一つであり、業界最先端の研究成果がここで発表される。今年は 6 月 17 日から 21 日までの 5 日間、アメリカワシントン州シアトルのコンベンション・センターで開催された。本稿は、現地参加したリサーチャー2名(株式会社モルフォ)による現地レポート。興味深かったセッションの紹介を交えつつ、学会の様子を時系列で報告するDAY2となる。
DAY1 レポートはこちら
DAY3 レポートはこちら
DAY4 レポートはこちら
DAY5 レポートはこちら
6月18日(火)
二日目もワークショップの開催があった。
朝食会場ホール
ワークショップ:Implicit Neural Representation for Vision
NeRF が台頭して以来、3D 空間を潜在空間として表現する手法、Implicit Neural Representaiton (INR) が注目を集めている。特に省メモリかつ高精度で 3D 空間以外にも多様な入力に対して同一のフレームワークが適用できることから分野の発展が著しい。本ワークショップは INR を用いる際の利点欠点、適用例、未解決課題等を研究者 6 人が講演する。とりわけ最初の Vincent Sitzmann 氏による講演は圧巻であった。AI に 3D 空間情報を理解させることを最大目標として、INR を導入するまでの経緯、導入してから課題を特定しては解決するという繰り返しの道筋を、実際の過去研究に沿って紹介。特に INR 表現では局所性情報がつぶれるため、それを如何に補正するかが重要であるというメッセージを感じた。その点で 3DGS は優れており、ワークショップ全体を通して何度もその名前が出てきた。他には Srinath Sridhar 氏による、INR を通した外界との動的なインタラクションモデリングの話も興味深かった。人間が外界の刺激に対して動的に対応して相互作用する能力を機械に体得させることを目標に、物体を手でつかむ際の手の構造モデリング及び物体との接地面を 3DGS で精緻にモデリングする実例研究を紹介。他にも動的シーンのモデリングのために専用のデータセット構築および既存 INR 手法による精度限界を調査したり、より野心的な試みとして人間が体の制御能力を獲得するまでの長期的な変化をモデリングするために生後数か月の子供を 360 度モニタリングするシステムの開発にまで手を広げている。
ワークショップ:What’s next for multi modal foundation model
マルチモーダルな基盤モデル、とくに vision-language model (VLM) は、大量の画像と説明文のペアを学習させることで、画像の内容を言語的に “理解” しているように振る舞うモデルだ。様々なタスクに VLM を組み合わせることで、人とモデルとの、自然言語を介した相互作用が可能になる。本セッションでは、VLM 研究の最前線が紹介されていた。まずは動画への適用。数百フレームにわたる映像を理解して内容についての質問に答えるタスクや、カメラの映像と人の命令文から適切な行動を計画するロボットの研究が紹介された。次にエッジデバイスへの搭載。精度劣化を抑制した量子化と蒸留を用いて、エッジデバイスで使用可能な VLM を開発した研究が紹介された。そしてオープンソース化。研究のすそ野を広げるためには必要不可欠だが、大規模にデータを取る投資ができるのは大企業に限定される。そこで ChatGPT などの学習済みモデルを用いていかに学習データを作り出すかという研究が紹介された。基盤モデルにおいて重要な課題である因果関係のモデル化についての理論的研究が有効打になるとしつつも、未解決と位置付ける発表者が多かったのが印象的だった。
(角田良太朗、三宅博史)
JDLAでは、2024年7月18日(木)16:00よりオンライン開催のCVPR2024 技術報告会を予定しています。イベントページはこちら