Rédaction
Date
Olivier Leclerc, expert en reconstruction 3D au CDRIN, présente L’État des NeRFs, une veille approfondie sur les technologies NeRFs et 3D Gaussian Splats, mettant en lumière leurs avantages et défis. Destinée aux professionnels de la créativité numérique, cette veille vise à guider les choix techniques pour les nouveaux projets en partageant des insights et des recommandations issues de ses propres expérimentations et recherches.
Tout d’abord, explique-nous ce que sont les NeRFs et les 3D Gaussian Splats?
Les NeRFs et les 3D Gaussian Splats sont une nouvelle forme de photogrammétrie, plus spécifiquement, ils s’attaquent au problème du ‘Multi-View Stereo’ ou MVS. Plutôt que de calculer une série de cartes de profondeurs pour les fusionner comme les techniques traditionnelles, celles-ci travaillent à optimiser une représentation abstraite en se comparant directement aux images, dans le but de les reproduire le plus fidèlement possible. Lorsqu’on choisit d’afficher directement le résultat à l’écran, la qualité est presque parfaite. Dans le cas des 3D Gaussian Splats, la vitesse de reconstruction est la même ou plus rapide, tandis que la qualité augmente, c’est donc très avantageux.
En quoi consiste la veille que tu as réalisée sur la technologie des NeRFs. Quel était l’objectif et à qui s’adresse-t-elle?
Les nouvelles formes de visualisations comme les NeRFs et les 3D Gaussian Splats font l’objet d’intenses recherches partout dans le monde, et je trouvais difficile de s’y retrouver. Des expériences sont réalisées par les chercheur·ses sur tous les aspects en même temps et lorsqu’on souhaite les utiliser en pratique, on ne sait pas toujours lesquelles s’appliquent à notre cas d’usage.
Cette veille a pour but d’aider à orienter les choix techniques des nouveaux projets, en partageant notre expertise et le résultat de nos essais. Le rapport est structuré autour de plusieurs axes de recherche pour offrir une compréhension approfondie des technologies et pour offrir des recommandations concrètes.
Les axes des recherches du rapport L’État des NeRFs
- Calibration des poses de caméras
- Vitesse (entraînement, rendu)
- Efficacité en termes d’images (sparsity, robustness) :
- Qualité d’image
- Dynamisme, animation
- Taille des données, streaming
- Taille de la scène
- Extraction d’informations (maillages, matériaux, éclairage)
- Implémentations (moteurs de jeu)
- Édition
- Intersection avec l’IA Générative (créer ou transformer avec des prompts)
Les NeRFs sont une technologie qui évolue rapidement. Pourquoi était-ce important de réaliser cette veille et comment doit-on aborder le rapport?
Quand on voit les démonstrations des projets de recherche, il est facile de penser que le même résultat est atteignable pour peu que l’on ait accès au code source. Pourtant, elles sont souvent fragiles au contexte exact du problème et peuvent demander un travail supplémentaire pour les adapter. Ce document vous guidera par rapport aux différents contextes et objectifs pour lesquels ces techniques sont idéales.
Quels sont les principaux avantages et défis des NeRFs par rapport aux méthodes traditionnelles de reconstruction 3D?
L’avantage premier est la fidélité des images générées, elles sont presque indistinguables des photos. Cela implique qu’elles peuvent maintenant reproduire des effets comme les reflets (miroirs), la transparence (fumée) et la complexité (végétation). Elles peuvent également reproduire davantage qu’une photo, c’est-à-dire des vidéos ou même une variable supplémentaire comme l’heure du jour et de la nuit, par exemple. De plus, la représentation apprise se prête bien à la combinaison avec l’IA générative et à l’interprétation pour en extraire des maillages triangulaires (modèles pour moteurs de jeu).
Pour les NeRFs, le temps d’entraînement et la quantité de calculs requis peuvent être des obstacles. Il faut également penser au fait que le rendu peut être lourd sur l’appareil final (PC, VR, mobile). Également, l’intégration dans une scène 3D (Unity, Unreal) n’est pas automatique, il y a entre autres des enjeux d’éclairage et de physique.
Les 3D Gaussian Splats sont plus pratiques, le temps d’entraînement est diminué et ils peuvent être affichés sur mobile/VR (en qualité réduite pour le moment). Ils ont les mêmes enjeux en termes d’intégration, l’idéal est encore de les afficher seules ou de les convertir en maillages triangulaires (meshes). À noter que pour ces deux techniques, il faut être en mesure d’aligner les images, c’est-à-dire de trouver leurs positions 3D relatives. Cela peut poser problème, surtout s’il y a du mouvement ou que la vue est obstruée. Également, la consommation de mémoire vidéo dépend de la quantité d’images d’entrée, ce qui est un enjeu pour les grandes scènes.
Comment vois-tu l’application des NeRFs dans l’industrie de la créativité numérique?
Nous sommes toujours intéressés à entendre parler de vos idées, cela dit, ces techniques arrivent à un niveau de maturité tel, qu’elles ouvrent des portes intéressantes comme:
- La capture de contenus impossible autrement (forêts, vitre, feu, fumée, eau)
- La visualisation haute qualité, surtout sur PC et PCVR, mais le VR/mobile autonome est imminent
- Les nouveaux environnements (aérien, sous-marin)
- La capture d’objets pour modélisation, mesh détaillé
- L’interprétation de la scène 3D par IA (par exemple, identifier les meubles dans une pièce et les enlever)
- La créativité et modification (IA générative 3D), à explorer
- La possibilité d’améliorations pour l’alignement de poses
- La localisation dans l’espace (SLAM)
Dans quelles collaborations as-tu pu intégrer cette technologie ou l’approfondir?
J’ai utilisé Instant-Nerf et NerfStudio pour faire la reconstruction 3D à partir de vidéos de drones, ainsi que pour évaluer l’impact d’une technique d’alignement d’images (LoFTR). J’ai aussi travaillé à optimiser des 3D Gaussian Splats sous Unity pour les rendre assez rapides pour de la VR “on-device”. L’extraction de maillages (meshes) à l’aide de Neuralangelo et SuGaR a aussi été évaluée dans deux projets aux besoins différents. Dans le futur, j’aimerais appliquer la technologie InstantSplat qui est très prometteuse, ainsi que travailler à l’augmentation de la quantité d’images d’entrée et donc de la taille de la scène.
Comment les entreprises sans service R&D peuvent-elles tirer parti des avancées en NERFs pour leurs besoins en reconstruction 3D?
Je conseille de se tourner vers les 3D Gaussian Splat, plus accessibles. Il existe quelques logiciels grand public avec des interfaces visuelles qui commencent à être efficaces. Bien qu’il y ait beaucoup de paramètres à ajuster, les valeurs par défaut sont souvent suffisantes. Le seul pré-requis est de disposer d’une bonne carte graphique de marque NVidia, car le code d’entraînement utilise CUDA, une technologie propriétaire. Pour la visualisation, il est possible d’utiliser des applications ou des sites web permettant de téléverser le contenu. Si vous travaillez déjà avec la photogrammétrie classique (Meshroom, RealityCapture, etc) et qu’elles ont des lacunes, ou que vous aimeriez pousser davantage un aspect en particulier, ces techniques modernes pourraient bien représenter la solution idéale pour vous.