CVPR 2024 現地レポート【DAY１】

CVPR （Conference on Computer Vision and Pattern Recognition）は、コンピュータビジョン、人工知能、機械学習、および関連分野の研究開発におけるトップカンファレンスの一つであり、業界最先端の研究成果がここで発表される。今年は 6 月 17 日から 21 日までの 5 日間、アメリカワシントン州シアトルのコンベンション・センターで開催された。本稿は、現地参加したリサーチャー2名（株式会社モルフォ）による現地レポート。興味深かったセッションの紹介を交えつつ、学会の様子を時系列で報告するDAY１となる。

DAY２レポートはこちら
DAY３レポートはこちら
DAY４レポートはこちら
DAY５レポートはこちら

シアトル沿岸部の街並み

中心部には高層ビルが立ち並ぶ

6月17日（月）

初日は朝 7 時、会場のコンベンション・センターに到着した。地下 1 階のホールで朝食がビュッフェ方式で提供され、7:30 頃には多くの参加者で賑わっている。各自が好きなテーブルで菓子パンや果物を食べていた。月曜日と火曜日はワークショップが開催され、各セッションは午前または午後、一部は丸一日続くものもある。目当てのものや人気度を見ながら参加するセッションを選んだ。セッションは登録なしで自由に参加できるが、部屋のキャパシティ以上の入場は制限されており、人気のセッションは早めに席を取らないと参加が難しい状況だった。

コンベンション・センター（サミット）

コンベンション・センター（アーチ）

ワークショップ：Efficient Large Vision Models

LLM や VLM、Diffusion Model が近年顕著な進展を見せており、これを端末上でローカル推論できると応用が広がる。本ワークショップでは研究者 6 人による、大規模モデルの推論高速化とモデルサイズ削減に関しての、理論面および実装面での様々なアプローチを、過去の研究実績をもとに発表していた。6 人中 4 人が Diffusion Model に関する講演を行った。Diffusion model は LLM に比べると理論と実装が奥深いため、改善策が提案しやすいのかもしれない。LLM および Diffusion Model に共通して量子化手法の改善は主流で、精度劣化を防ぐためにレイヤーレベルでの最適化、またハードウェア特性を考慮した手法を現在の研究界隈のトレンドとして感じた。

ワークショップ：Learning 3D with Multi-View Supervision

Meta 社が推す VR/AR コンテンツや、Apple Vision Pro が可能にした空間コンピューティング、さらに自動運転における 3D perception の重要性が相まって、画像処理コミュニティでも 3D モデリングへの関心が高まっている。関連ワークショップはどこも満員御礼状態だった。トピックは主に、生成 AI、3D の仮想世界を生み出す技術と、デジタルツイン、現実世界の 3D モデルを再構成する技術に分かれている。3D の生成 AI は Adobe や Blender のアプリ上ですでに実用化され、現在は普通に使われている技術だが、アカデミアではさらに高度な技術への取り組みが行われている。例えば、4D 生成、つまり時系列で 3D アニメーションを作る技術や、マテリアル情報も生成することでよりリアルな透過や反射を自動で生み出す技術などが印象的だった。デジタルツイン分野でも、被写体が動くダイナミックシーンの 4D モデル化や、NeRF や 3D Gaussian Splatting (3DGS) による新規視点合成を、都市規模で行うための研究など、現在の技術的制約を取り払う研究が進んでいる。3D は視覚に訴える感動が大きいため、わくわくするようなプレゼンが多かった。この分野は、これからも次元とスケールの拡張が加速していくだろう。

（角田良太朗、三宅博史）

JDLAでは、2024年7月18日（木）16:00よりオンライン開催のCVPR2024 技術報告会を予定しています。イベントページはこちら