Améliorer la reconstruction 3D par réseau de neurones dans Meshroom

Rédaction

Olivier Leclerc ,

Pierre Lalancette

Date

25 juillet 2024

Partenaire(s)

Imaginez des modèles 3D plus réalistes et de meilleure qualité grâce à la recherche appliquée. Le chercheur-programmeur Olivier Leclerc du CDRIN, avec l'aide de Pierre Lalancette, ex-enseignant en animation 3D et synthèse d’images du Cégep de Matane, a développé une méthode innovante: Reconstruction 3D améliorée par réseau de neurones. Cette approche utilise l'apprentissage profond pour perfectionner la photogrammétrie, entre autres pour le 3D subaquatique. Découvrez comment ce nouveau procédé s’intégrant au logiciel Meshroom peut transformer vos projets numériques et expériences immersives, notamment la production d’outils de recherche et de vulgarisation scientifique.

En reconstruction 3D, mieux comprendre les distances jusqu’aux objets dans un espace tridimensionnel (ce qu’on appelle estimation de cartes de profondeur) est une nécessité pour une fabrication précise de modèles, notamment dans des environnements complexes, comme la photogrammétrie subaquatique pour l’archéologie. On l’avait constaté à travers le prototype de virtualisation de l’épave Scotsman, réalisé en 2021-2022 alors que le CDRIN agissait comme partenaire technologique dans le cadre d’un projet d’expérience muséale immersive initié par l’IRHMAS.

Dans un contexte de valorisation scientifique comme celui de l’archéologie subaquatique, ou dans d’autres domaines tels que l’ingénierie, le divertissement ou la santé, la précision des modèles 3D est devenue essentielle pour soutenir la recherche et la communication scientifique.

QU’EST-CE QUE LA PHOTOGRAMMÉTRIE?
La photogrammétrie, qui permet de modéliser une forme 3D à partir de photographies de différents points de vue, est une technologie exploitée pour réduire le temps de production d’éléments 3D et multiplier les possibilités de reproduction photoréaliste dans divers domaines comme le divertissement, l’aménagement du territoire, l’ingénierie, l’industrie manufacturière, l’archéologie ou la santé. Cette technique permet de réduire les tâches fastidieuses et chronophages

De plus, les avancées techniques pour calculer l’estimation de profondeur atteignent leurs limites lorsqu’il s’agit de générer des surfaces continues, en particulier dans des conditions d’acquisition d’images difficiles ou lorsque les images sont dégradées.

À gauche, la référence, À droite, notre méthode.

L’apprentissage profond pour une meilleure 3D

La recherche intitulée Reconstruction 3D améliorée par réseau de neurones, combine des techniques d’estimation de profondeur novatrices avec l’apprentissage profond, améliorant considérablement la reconstruction 3D pour diverses applications en photogrammétrie.
Nous avons mis au point une méthode innovante d’estimation de profondeur à partir de plusieurs images d’une même scène. Nous avons appelé ce problème «vision stéréo» pour deux images ou «stéréo multi-vues» (multi-view stereo ou MVS en anglais).
Au terme de notre recherche — on vous donne un aperçu de notre méthodologie plus loin dans cet article — nous avons réussi à implémenter la technique sélectionnée sous forme d’un module du logiciel Meshroom, une interface gratuite et à code source ouvert (open source) en vision par ordinateur et en photogrammétrie.

Le système développé augmente la précision et la robustesse du processus de reconstruction 3D et il peut être utilisé soit avec un modèle généraliste soit avec celui réalisé par le CDRIN dans le cadre de sa collaboration avec l’IRHMAS. Parallèlement à l’élaboration du procédé, nous avons créé un ensemble de données synthétiques, et entraîné un nouveau réseau de neurones, le tout adapté au milieu sub-aquatique.

Vers une nouvelle ère de reconstruction 3D

Pour y arriver, nous avons débuté le développement du module par une analyse de l’existant. Nous avons d’abord évalué l’algorithme actuellement utilisé (SGM) puis nous avons identifié ses lacunes. Après une veille approfondie, nous avons sélectionné deux techniques prometteuses pour leur potentiel en intelligence artificielle: HitNet et IGEV. Ce processus a nécessité une analyse minutieuse du code source du logiciel Meshroom et la mise en place d’une procédure de compilation. L’objectif principal était de comprendre le fonctionnement du nœud ‘DepthMap’ de Meshroom pour le reproduire efficacement dans notre système.

La technique HitNet nécessite une manipulation des images pour aligner les pixels et est intégrée avec succès grâce à OpenCV. Cependant, des difficultés surgissent lors de l’intégration des sorties avec Meshroom. En revanche, la technique IGEV, avec son code source ouvert, permet une adaptation aisée et offre une solution MVS indépendante.

À gauche, épave de bateau avec le nouveau module, À droite, la même épave avec l’ancien module.

Le moteur d’inférence choisi, LibTorch, nécessite des compromis en flexibilité mais est fonctionnel avec plusieurs versions du modèle exporté. L’implémentation du nouveau module implique la conversion et la structuration des données en matrices et tenseurs, aboutissant à des sorties utilisables pour la reconstruction 3D.

Génération de données synthétiques: modèle IA pour l’archéologie subaquatique

Nous avons ensuite passé à la phase de génération de données synthétiques, avec l’entraînement d’un modèle d’IA et l’utilisation du moteur 3D Unreal Engine 5.1 et de plugins associés pour obtenir les passes nécessaires.

À gauche, un matériau sous Unreal, À droite, visualisation du résultat

Nous avons créé un décor sous-marin avec des textures de Megascan et réalisé un bateau modèle. Un matériau spécifique pour simuler la vision sous l’eau a été développé, suivant une méthodologie complexe pour simuler l’absorption de la lumière.

Nous avons généré des séquences de base pour les tests préliminaires, suivies par un travail minutieux sur le Depth Of Field et d’autres effets pour simuler la capture d’images sous l’eau. Plus de 14000 images ont été produites, incluant différents problèmes et états du fond marin, avec la participation de l’étudiant Aly Henri pour la modélisation du bateau «Scotsman».

Re-entraînement du modèle d’IA

Pour améliorer la performance du modèle d’IA dans des environnements difficiles, notamment les milieux subaquatiques avec leurs distorsions et turbidités, nous avons entrepris un processus de réentraînement. Cela a nécessité la conversion des images générées par le module de données synthétiques dans un format compatible avec la méthode IGEV.

Un module à intégrer dans le logiciel Meshroom

Après plusieurs étapes de transformation et de développement de modules spécifiques, nous avons réussi à implémenter une technique avancée d’estimation de profondeur dans le logiciel Meshroom. De plus, nous avons entraîné une version adaptée au milieu sub-aquatique avec nos propres données synthétiques.
Notre prochaine étape consistera à proposer notre solution à l’équipe de développement de Meshroom pour une éventuelle intégration dans le logiciel officiel.

Accès simplifié à la reconstruction 3D

Comme l’équipement requis pour réaliser des numérisations de qualité est coûteux, et le processus de capture et de reconstruction étant laborieux, notre solution sur un logiciel ouvert comme Meshroom, qui permet de numériser des éléments du monde réel de manière plus rapide et qualitative, offre un meilleur accès à la reconstruction 3D pour les petites entreprises et organisations culturelles.

À titre d’exemple, le matériel produit pour la simulation de fonds marins a été utilisé dans un projet de présentation 3D de la ville de Matane, contribuant ainsi à un projet communautaire en cours de développement.

L’avancée technologique pourra trouver des applications dans des domaines tels que l’aménagement du territoire, l’ingénierie, l’industrie manufacturière, l’archéologie et la muséologie.

TRANSFERT DE COMPÉTENCES EN ÉDUCATION
Le projet de recherche du CDRIN permet aux étudiant.es de modélisation du Cégep de Matane de créer des modèles plus robustes à partir de moins de photos de qualité inférieure (la plupart de la communauté étudiante utilise son téléphone intelligent pour créer leur échantillonnage de photos). Ils ou elles peuvent opérer maintenant plus rapidement vers des modèles fonctionnels. De plus, la méthodologie du projet a été présentée à des étudiant.es en VFX pour les guider dans leur démarche de résolution de problèmes, en mettant l’accent sur la fixation d’objectifs, les étapes à accomplir, la résolution des obstacles et l’éthique de la collaboration en recherche.

À propos des auteurs de la recherche

La recherche a été réalisée dans le cadre du programme PART de l’Enseignement supérieur du Québec

Chercheur principal
Olivier Leclerc, chercheur-programmeur au CDRIN: Construire des ponts entre le réel et le virtuel est l’une des missions d’Olivier Leclerc, chercheur programmeur. Expert R&D en vision numérique et IA et fort d’une riche expérience qui inclut le développement de jeux vidéo multijoueurs (Frima), la réalité augmentée (Arcane Technologies) et l’analyse d’images médicales (Optel), il excelle au CDRIN dans le développement d’algorithmes et de prototypes d’applications. Les champs de recherche d’Olivier touchent la photogrammétrie, la vidéogrammétrie, la détection d’objets, les cartes de profondeur ainsi que la technologie SLAM et les NeRFs. Le rôle d’Olivier comprend également la gestion et le conseil en données d’entraînement ainsi que l’accompagnement des clients à toutes les étapes d’un projet, de l’analyse des besoins à l’implémentation et la documentation.

Équipe de recherche
Pierre Lalancette, ex-enseignant
Aly Henri, étudiant, animation 3D et synthèse d’images au Cégep de Matane
Mylaine Côté, codirection au CDRIN

Industries :

Expertises :

Développement régional, Immersivité, Jeux vidéo, VFX et animation

Reconstruction 3D

Développement régional Expertises Immersivité Industries Jeux vidéo R&D Reconstruction 3D VFX et animation

Améliorer la reconstruction 3D par réseau de neurones dans Meshroom

L’apprentissage profond pour une meilleure 3D

Vers une nouvelle ère de reconstruction 3D

Génération de données synthétiques: modèle IA pour l’archéologie subaquatique

Re-entraînement du modèle d’IA

Un module à intégrer dans le logiciel Meshroom

Accès simplifié à la reconstruction 3D

Création de costumes assistée par l'IA: accélérer le flux de production

Jeux vidéo inclusifs: une API ouverte pour la langue des signes québécoise

Un projet à faire
émerger?

Améliorer la reconstruction 3D par réseau de neurones dans Meshroom

L’apprentissage profond pour une meilleure 3D

Vers une nouvelle ère de reconstruction 3D

Génération de données synthétiques: modèle IA pour l’archéologie subaquatique

Re-entraînement du modèle d’IA

Un module à intégrer dans le logiciel Meshroom

Accès simplifié à la reconstruction 3D

Autres articles

Création de costumes assistée par l'IA: accélérer le flux de production

Jeux vidéo inclusifs: une API ouverte pour la langue des signes québécoise

Un projet à faire émerger?

Un projet à faire
émerger?