Total : le rôle de l’intelligence artificielle dans l’exploration pétrolière

Rencontre avec Baptiste Joudet au sein du Data Lab Total de Pau. Un échange extrêmement intéressant pour tous les amateurs de téraoctets : on va parler d’intelligence artificielle appliquée à des bases de données documentaires (plus de 600 000 fichiers), sismiques (plus de 15 pétaoctets de données), de diagraphie, de reconnaissance de texte, d’image, d’un voyage à San Francisco chez Google et de carottes. À table !

Une cuve Total avec 2 employés.
Interview avec Baptiste Joudet, Data Manager chez Total.

Présentation et parcours académique

Bonjour Baptiste ! Merci de me recevoir. Je te laisse te présenter pour démarrer.

Logo du Data Lab intelligence artificielle Total.
Le DataLab Total

Salut Hugo. Je m’appelle Baptiste, j’ai 37 ans et je travaille chez Total à Pau sur la partie Exploration et Production. De formation je suis data manager, et actuellement je fais de la gestion de projet dans le data management. Je travaille à la création de notre Data Lab. La mission autour de ce lab est d’étudier comment est-ce qu’on peut pousser l’automatisation de tâches récurrentes de data management en utilisant l’intelligence artificielle.

Tu nous parles de ton parcours ?

Depuis tout petit, je voulais faire chercheur océanographe, comme Cousteau ! J’ai donc passé un bac S, puis je suis allé à la faculté de biologie de Perpignan. Mais je me suis vite rendu compte que la bio, c’était beaucoup de par coeur (sourire). Alors je me suis dirigé vers la géologie, que je trouvais plus fun. J’ai basculé en géosciences, et pendant mon cursus un de mes professeurs me poussait franchement vers une spécialité avec une composante informatique. Parce que j’avais l’habitude de le dépanner avec les ordinateurs du labo ! En parallèle, on me déconseillait d’aller vers la recherche, secteur difficile avec peu de débouchés. J’ai donc essayé de coupler informatique et sciences de la terre. Et après un cursus entre Paris VI et l’ENS, j’ai intégré un cursus grandes écoles.

Le capitaine Cousteau.
« Alors Baptiste, on est décidé ? Les poissons ou les cailloux ? »

Et est-ce qu’il y a eu rapidement du concret ?

Le concret s’est matérialisé à travers les stages, que j’ai tous fait dans une entreprise américaine à Houston. On faisait du data management dans le secteur pétrolier. Rapidement, cela m’a beaucoup plu. Au sein de cette société, il y avait une entité qui faisait de la cartographie avec des outils et des techniques qu’on ne connaissait pas et qu’on n’avait pas en centre de compétence de la filiale à Toulouse. Mon objectif a été de récupérer ces outils et d’organiser des formations pour que les collaborateurs puissent monter en compétence.

Pour créer mon retour de formation, j’ai décidé de travailler sur un modèle de risque appliqué à la gestion des pipelines. À ce moment-là, je me suis dit “si on monte un modèle de risques et que derrière on a un plan budgétaire, on va pouvoir monter des scénarii sur l’état d’un réseau, et sur la base d’un budget de X millions d’euros savoir sur quoi les investir de façon à réduire notre risque”. C’est une approche qui a très bien fonctionné, puisqu’on a monté un projet qui a duré 3 ans avec Total Gaz.

« Du coup, nous n’avons jamais eu la certification pour notre modèle et ils ont récupéré le projet… « 

J’avais fait un prototype sur lequel il y avait une dizaine de paramètres. Mais pour aller plus loin et le certifier pour les milieux industriels, ce n’est pas une dizaine mais une centaine de paramètres qu’il faut prendre en compte. Le type d’acier, la pression, la corrosion, … Cela a débouché sur un vrai gros projet mené de concert avec les métiers. Mais lorsqu’on a voulu certifier le modèle, on a eu des soucis avec les organismes…

C’est-à-dire, par rapport à vos résultats ?

Non. Le problème avec les organismes de certification, c’est que ce sont des sociétés avec des objectifs commerciaux. Du coup, nous n’avons jamais eu la certification pour notre modèle et ils ont récupéré le projet…

Parcours professionnel

Pour en revenir à mon parcours, je suis sorti du milieu cartographie pour aller travailler sur un outil qui permettait de crawler différentes sources de données pour les agréger dans un catalogue. Puis j’ai commencé à faire du développement, je suis passé au service, je suis allé chez les clients faire les installations, faire des formations, du support de l’avant-vente… Ce parcours un peu atypique m’a permis d’acquérir pas mal d’expérience côté IT et sur différents outils professionnels. Mais je voyageais beaucoup et je voulais prendre du temps pour ma famille.

C’est à ce moment que j’ai rejoint Thalès Services à Toulouse pour un retour aux sources sur du développement appliqué à des logiciels de cartographie. C’est là que j’ai découvert l’open source. C’était très enrichissant ; en termes de normes, de possibilités techniques ou fonctionnelles, c’était nouveau pour moi, avec bien sûr des avantages et des inconvénients. Tu ne travailles plus que pour toi mais pour une communauté. J’ai travaillé sur de beaux projets, pour la Lyonnaise des Eaux ou encore la gestion des couloirs aériens.

Les locaux de l'entreprise Thalès à Labège.
Les locaux de Thalès à Labège, près de Toulouse.

Et comment a démarré ton aventure chez Total ?

J’ai commencé Administrateur SIG (NDLR : Système d’Information Géographique) pour publier des cartes sur l’intranet. Un travail “clic-bouton” que je trouvais assez fastidieux, du coup je me suis permis d’automatiser la chaîne de traitement. Suite à ça, je suis passé à la gestion de projet pour travailler sur l’évolution de la plateforme.

Puis je suis passé à la Data Gate ; un service qui récupère l’ensemble des données numériques de l’Exploration / Production (tout ce qui est données Puit, Sismique, Documentaire, etc…) sur lequel on devait faire un contrôle qualité avant que les données ne soient déversées en base patrimoniale. Mon rôle dans le service a été de participer à la définition des workflows de traitement de l’ensemble des données gérées, puis de créer un tracking système permettant d’orchestrer nos processus, les rôles des différents intervenants, de permettre une historisation du cycle de traitement sur la donnée et offrir un suivi aux utilisateurs.

Tu nous expliques ce qu’est la base patrimoniale chez Total ?

C’est un ensemble de bases de données où on agrège toutes les données qu’on acquiert, qu’on achète ou qu’on échange avec nos partenaires. Ce sont des bases de données très importantes chez nous. Elles permettent aux interprétateurs et aux métiers d’accéder à tout notre patrimoine data ; c’est à partir de cette base qu’on génère de nouvelles études, qu’on essaye de comprendre la structuration des bassins, etc… Il est donc primordial qu’elle soit correctement structurée. Que chaque recherche dans cette base puisse générer des résultats complets et justes.

Le sanctuaire de la donnée chez vous donc. Suite à la Data Gate, tu as encore évolué ?

Oui si l’on peut dire, à la suite de la mise en place des workflows, du tracking et de l’historisation des actions sur la donnée. Avec deux de mes collègues (Elie Maze et Florian Bergamasco), tous deux data manager aimant coder et possédant une grande connaissance de la donnée, après quelques prototypes on nous a donné la chance de construire le Data Lab. Le but est d’essayer de voir comment l’intelligence artificielle peut aider nos data manager. 

Les locaux de l'entreprise Total à Pau.
Les locaux Total à Pau.

Les projets d’intelligence artificielle sur la donnée chez Total

Quand as-tu entendu parler pour la première fois d’intelligence artificielle dans ton métier et pour quel cas d’application ? 

Cela fait environ un an et demi que l’on se dit qu’il serait bien d’utiliser de l’intelligence artificielle (machine learning) pour extraire des métadonnées. Mon collègue Florian a développé un outil qui était basé sur un moteur de règles pour extraire de l’information contenue dans des rapports. Lorsque nous avons voulu le reprendre pour l’utiliser sur un autre type, on s’est rapidement rendu compte que cela serait difficile à maintenir. Alors nous somme partis explorer le machine learning.

Et cela vous est venu suite à quelle problématique ? 

Chez Total, on reçoit environ 1 million de fichiers numériques par an, avec par conséquent un gros backlog côté archivage. Des flux physiques, des documents, il faut tout consolider pour indexer ça dans nos bases patrimoniales. Mais il ne suffit pas juste de dire “Allez hop, on archive !”. Cela doit être fait d’un point de vue métier, en ajoutant des attributs qui permettent à un utilisateur de retrouver l’information via un moteur de recherche. Tout cela était fait jusque-là par des opérateurs. Comment structurer un énorme volume de données déstructurées.

Cumul des fichiers reçus par Total entre 2015 et 2018.
Le nombre de fichiers reçus entre 2015 et 2018.

Il fallait donc remplacer les Hommes par des robots ?

La démarche a davantage été de fournir les outils qui permettront aux opérateurs d’être plus efficaces. Et c’est ce qu’on a réussi à mettre en place progressivement.

Au départ on a commencé avec des choses simples comme introduire des regex (NDLR : REGularExpression), du calcul de checksum pour comparer 2 clés de hash et identifier les doublons. Nous avons introduit comme ça des petits outils jusqu’à arriver à être agnostique au type de fichier, aussi bien des documents que des fichiers sismiques. Cela est notamment passé par le développement de readers, d’API, …

De ce que j’imagine, le chantier au départ devait être colossal ! Tu peux nous en dire plus sur votre démarche à ce moment-là ?

J’avais fait mon de côté quelques outils, et un collègue le moteur de règles. Progressivement, nous avons réussi à nous dégager du temps de nos projets respectifs pour avancer sur ce chantier. Jusqu’à arriver à monter un début d’équipe. À ce moment-là on ne se parlait pas d’intelligence artificielle.

Dès le départ, on s’est accordé sur la mise en place d’une boîte à outils faites d’API et de readers de manière à pérenniser nos efforts. On ne pouvait pas se permettre d’avoir des gens qui entraient sur le projet, qui développent des choses et lorsqu’ils partent ou changent d’équipe, se retrouver dans l’impossibilité de maintenir ces briques.

En parallèle, je m’étais fixé l’objectif de regarder jusqu’où on pourrait aller dans l’automatisation de nos workflows. C’est à ce moment qu’on s’est dit que le machine learning pouvait nous être utile.

Et pourquoi le machine learning ?

Parce que nous avons rapidement été confronté à des problèmes avec certains types de fichiers. Le problème de notre moteur de règles, c’est que cela fonctionnait bien au départ. Mais qu’il est rapidement devenu difficile à maintenir. Et lorsque l’on voulait appliquer ce que l’on avait fait côté “Sismique” pour le côté “Puit”, il fallait tout refaire. L’idée a alors été de regarder ce que l’on pouvait faire en intelligence artificielle et machine learning pour ces problématiques là. Comment généraliser le plus possible et sortir de ce moteur de règles. 

Mais le machine learning, c’est un sujet que tu ne maîtrisais pas forcément à l’époque c’est bien ça…

Exact. C’est pour cette raison qu’on est parti au salon du Big Data à Paris, pour se renseigner sur l’état de l’art et échanger avec des acteurs du milieu et des sociétés de services.

Les allées du salon du Big Data à Paris.
À la pêche aux réponses…

On débarque dans les allées, et quand on commence à raconter “Bonjour, nous avons une base de données avec 600 000 fichiers et on veut faire ci, et ça” … tout le monde nous regardait avec de grands yeux !

Certains nous ont dit “Mettez en place une stratégie big data Hadoop” ; or, nous avons nos contraintes on ne peut pas tout changer comme ça. Les opérationnels ont un besoin permanent d’accéder à la donnée. Et quand on parle de fichier sismique, on parle de fichiers qui peuvent aller de quelques centaines de méga à deux ou trois téra. Au final, on s’est dit que notre problématique n’était peut-être pas acceptable. Et qu’il fallait qu’on se forme davantage pour mieux maîtriser le sujet.

Moi, ma problématique était : “J’ai des filers un peu partout qui contiennent de la donnée, je voudrais lancer un service qui va me scanner ces filers et me construire des index automatiques, qui va me dire si c’est un fichier Sismique, un fichier Puit, un document, et les relations qu’ont ces fichiers entre eux. Puis je présente ça au user et le user peut partager le résultat au sein de son organisation avec un groupe de personnes”.

J’étais au départ persuadé que l’aspect machine learning pouvait aider par rapport au  système de règles. Notamment par rapport aux similitudes dans la démarche avec le travail du data manager. Je trouvais que ce qu’on pouvait faire avec l’intelligence artificielle se prêtait bien à la classification. Rien que le NLP pour traiter nos documents, il fallait qu’on essaie.

À la suite de ça, on a décidé de monter un projet avec deux entreprises (Lumen AI et Amayas). Le brief :  “Voici notre workflow, voici nos données, on veut faire du tri automatisé, on a un historique de 3 millions de fichiers avec la façon dont ils ont été classés. Construisons quelque chose sur base de cet existant”. Et c’est comme ça qu’on a eu notre première brique, et qu’on a pu dire que cela fonctionnait. Aujourd’hui la brique est live, mais je fais toujours ça sous forme de recommandation et non de classification directe. Pour chaque fichier, je vais faire la prédiction et je vais afficher la recommandation à l’utilisateur. Et c’est lui qui va s’occuper de valider ou pas la décision. 

Des problèmes et des solutions

Tout ça sur le papier c’est formidable, mais je me doute que vous avez bien dû rencontrer quelques difficultés en route !

Effectivement ! Et sur plusieurs sujets.

Tout d’abord les PDF, parce qu’ils sont amenés à aller un peu partout. Tant dans la partie Documentaire qu’accompagner des objets Simisques ou des objets Puits (ils amènent une information technique très importante : positionnement, paramètre d’acquisition, méthode d’acquisition de la donnée, dispositif,…). Je pouvais prédire que c’était un Document, mais sans rentrer dans le fichier je ne pouvais pas dire si c’était ou pas une note qui devait accompagner un objet Sismique ou Puit. Or, c’est capital d’avoir ces informations au bon endroit (exemple : une information de positionnement lorsque l’on doit charger en étude).

Autre chose avec les PDF, quand ils sont issus de Word, pas de souci. Mais quand ce sont des scans ou des documents non vectorisés, c’est beaucoup plus complexe pour les lire. On a donc dû se plonger dans Tesseract pour extraire un texte de qualité. On avait bien des OCR (NDLR : OCR : Optical Character Recognition) professionnels utilisés côté documentaire, mais on s’est rapidement aperçu au fil des années que les techniques de lecture avaient changé. On avait une qualité de texte assez disparate. Même aujourd’hui encore, cela nous arrive de recevoir des documents de 1950 ou de 1960. Car il faut savoir que lorsqu’on fait une acquisition de prise de position, on récupère des données issues du pays concerné.

J’avais une version récente de Tesseract que Google avait vraiment amélioré et qui était plus puissante que nos outils professionnels. L’objectif a été de trouver la bonne configuration de Tesseract et de réocériser une bonne partie de notre corpus en base patrimoniale.

Problématique suivante. On avait des rapports, avec la première page qui était le titre et ensuite une succession d’images. Dans ce type de rapport, on récupérait très peu de texte. Généralement, c’était des photos de carottes issues de roches extraites. Ces données là vont dans des bases de spécialités. Et quand on reçoit ces types de fichiers, on les reçoit généralement par lot de 1500… Imaginez le travail pour un opérateur. J’ai vu que c’était du PDF, alors on a décidé de transformer ça en image. Et c’est là qu’on a commencé à faire les classifieurs d’images. 

« Le ‘cleaning’ et l’organisation de la donnée qu’on récupère peuvent représenter jusqu’à 90% du temps passé sur un projet. »

Et tout ça s’est construit comme ça, brique par brique.

Oui c‘est ça. Au début je n’avais pas vraiment de besoin identifié par le métier, et pas de vision claire. Tous les sujets dont ceux d’intelligence artificielle se sont ouverts progressivement. On se renseignait sur ce qu’il était possible de faire au fur et à mesure que l’on voyait apparaître les sujets. 

Et il y a eu encore d’autres sujets de ce type qui se sont ouverts, autour notamment de la segmentation des pages de nos PDF, arriver à déterminer qu’ici on a du texte donc on doit le faire passer par Tesseract, ici une image, etc…

Mais au bout d’un moment, on s’est quand même posé et on s’est dit : “Est-ce qu’on ne va pas un peu dans tous les sens ?

Effectivement ! Sans certitude sur la direction à prendre, engager tous ces moyens pouvait sembler risqué.

Justement. Par chance, une équipe de chez Total était partie à San Francisco chez Google travailler sur la stream sémantique et l’intelligence artificielle. On est arrivé à un point où on avait besoin de savoir ce qu’ils faisaient, comment ils faisaient, et cela nous a renforcé dans notre approche.

Quel était l’intérêt partagé de cette collaboration ?

L’objectif du partenariat était d’utiliser les technologies cloud de Google pour pouvoir faire un moteur de recherche intelligent, avec une approche web sémantique appliquée au domaine pétrolier. Plutôt que chacun développe de son côté, on avait deux problématiques qui étaient similaires mais avec tout de même quelques différences, car eux davantage techno cloud, nous techno on-premise. Les premiers points de convergence étaient autour de l’analyse du layout, eux avaient fait des corpus, nous aussi, mais nous avions déjà réalisé un modèle, et eux devaient réaliser ça avec les outils Google. On a récupéré leurs données et on a fait un modèle qui a permis de les challenger. On s’est aussi rendu compte en comparant qu’on avait fait quelque chose d’assez basique avec texte / table / image, eux avaient fait des choses plus abouties sur la reconnaissance des titres, sur la structure du texte.

À ce moment-là, on s’est dit qu’ils avaient peut-être raison… Il fallait qu’on essaie d’identifier les titres ou les légendes des images. Pourquoi ? Parce que les titres peuvent servir d’éléments de comparaison avec ma table de sommaire ; si on retrouve bien la même chose, j’en conclue que mon document est complet. Je voyais encore un nouveau cas d’usage apparaître. 

Autant chez Total il y a une vraie culture et une vraie compétence sur le traitement d’images (des équipes ont construit des modèles qui permettent d’identifier des micro-fossiles dans des blocs 3D par exemple) par contre, sur l’aspect sémantique c’est un peu moins avancé. On était du coup ravi de travailler avec les gens de Google sur cet aspect sémantique. Partager, construire une vraie communauté, développer des idées…

Et après Google, vous avez rencontré d’autres partenaires en chemin ?

Dernièrement on est allé à Genève, chez Total Trading Shipping. Ils ont un Digital Lab qui travaille pas mal autour de l’intelligence artificielle et on a pu mettre en commun nos travaux. Même si on ne travaille pas sur les mêmes types de documents et pas la même sémantique, en terme de technique c’est assez proche, et même d’architecture IT. Sujet sur lequel ils peuvent beaucoup nous apporter.

Au shipping (la division transport maritime), ils doivent identifier selon les fiches descriptives ce qu’ils ont en terme de contenu de cargaison. Cela joue un rôle sur le lieu où ils vont pouvoir s’arrêter par exemple, car certains pays n’acceptent pas la présence de toutes les cargaisons ou matières. C’est également une approche textuelle, mais plus orientée hygiène / sécurité / environnement.

Un tanker Total qui navigue en mer.
Le transport de certaines matières ne permet pas à un tanker de s’arrêter n’importe où.

Et en terme de conduite du changement, embarquer les métiers, collaborer, cela n’a pas été compliqué ?

Là où nous avons plutôt bien fait je pense, c’est que même si on essayait d’explorer plein de sujets sans forcément aller jusqu’à la phase d’industrialisation, dès qu’on a eu les premiers résultats, on a développé une page de démo et les gens du métier pouvaient essayer et tester avec leurs données. Nous n’avons pas imposé nos outils techniques aux gens.

Au départ, on a commencé avec une dizaine de classes. Sachant que dans notre base patrimoniale il y en a environ une centaine. Les gens ont testé avec leurs classes, ont vu que ça marchait bien.Ceux qui auraient pu être réfractaires avec la conduite du changement sont venus nous voir pour nous dire : “Ah ouais c’est bien votre outil ! Ça nous fait gagner beaucoup de temps. Mais du coup est-ce qu’on peut pas aussi créer telle classe ou telle classe ?” 

Tout ça nous a mis dans la posture où on s’appuie sur l’expertise métier du documentaliste. Et cela permet d’embarquer beaucoup plus facilement les gens avec soi. Notre démo était visuelle, simple d’utilisation. Pour preuve, certains ont déjà commencé à l’intégrer dans leur daily job… alors que c’est une démo ! Par la suite, quand je leur disais que j’avais besoin de tel matériel pour avancer et ajouter des classes, les opérationnels me disaient spontanément : “Oui moi je connais, je vais pouvoir te fournir le nécessaire”.

Tu penses que si tu n’étais pas passé par cette case démo justement permettant la prise en main de l’outil, et que si tu avais travaillé dans ton coin et essayé d’imposer la solution, l’adoption aurait été beaucoup plus compliquée ?

Je pense que oui. Côté archivage, nous avons des collaborateurs qui travaillent avec les mêmes méthodes depuis des années. Nous, on essaie justement de montrer que l’archivage évolue et n’est pas figé. Que l’on peut faire des choses très intéressantes.

Alors c’est vrai que si on était arrivé en voulant imposer une solution déjà fonctionnelle, les opérateurs auraient pu se dire “ces gens veulent me remplacer”. Et en suivant ce schéma « traditionnel » on sait pertinemment qu’ils ne nous auraient pas aidé. Au lieu de ça, nous avons construit ensemble.

Enfin d’un point de vue managériale, nos travaux n’ont pas du tout été mal vus et ce dès le départ.

Et en terme de limite technique ?

Premièrement, lorsqu’on veut faire tourner une intelligence artificielle on-premise, c’est la puissance de calcul. On est limité. Et on ne peut pas faire sortir nos données. On pourrait quand même faire du cloud pour l’apprentissage. Même si avant d’envoyer dans le cloud il faut que l’on juge le niveau de confidentialité, d’où ça vient, quel pays ça concerne, etc.. Notre politique de legacy management est assez contraignante. Si on passe par un cloud américain, on ne peut pas mettre de la donnée provenant d’Iran ou d’Irak par exemple. Au final, faire du cloud je pense que cela rallongerait trop le process. Par chance, nous avons un supercalculateur Pangea 3 à Pau avec lequel on peut entraîner nos modèles.

Deuxièmement, à la différence de beaucoup de personnes qui travaillent sur des sujets d’intelligence artificielle, mon problème de riche c’est que j’ai beaucoup (trop) de données avec une très grande diversité ! Et c’est donc d’arriver là-dedans à faire le choix pour construire les corpus, d’avoir un échantillon représentatif. Trouver 1000 documents au milieu de 600 000, qui soient représentatifs en terme de structure, en fonction des années, des différents contracteurs etc… ce n’est vraiment pas simple !

Et comment tu as contourné ce point ?

On a testé différentes approches mais je ne pense pas que nous ayons encore trouvé la bonne solution. Du coup on teste, on monitore et on refait tourner si nécessaire.

Les logos Total à travers le temps.
Une technique utilisée pour identifier le nom d’un contracteur et d’un opérateur est de se référer à son logo. Pour cela, il est nécessaire d’avoir la liste exhaustive des logos à travers le temps ; illustration d’un des nombreux challenges relevés.

La valeur ajoutée apportée par l’intelligence artificielle sur les projets data

Si on pouvait mettre un R.O.I ou des résultats chiffrés derrière ces projets ?

Sur le tri automatique des fichiers, nous obtenons un taux de réussite de 94%. On le monitore facilement puisque c’est l’opérateur qui valide ou invalide la prédiction. Là où on se trompe encore, c’est sur les PDF mais c’est en cours de résolution. Très factuellement, le gain va être un ETP à l’année.

En terme de classifieur de rapports et d’images, cela fonctionne bien : entre 90% pour l’image et 95% pour le texte, basé sur une prise d’échantillon aléatoire dans nos bases patrimoniales.

Nos travaux ont aussi ouverts le projet (conséquent) d’utiliser ces mêmes algorithmes pour reclassifier toute notre base patrimoniale documentaire, car notre démarche a donné l’occasion à de nombreux métiers de se pencher sur le sujet. Du coup, ils nous ont dit “tel type de doc ce serait mieux qu’il soit classé comme-ci ou comme-ça”. L’objectif à terme donc est que la base patrimoniale documentaire soit mieux adaptée aux besoins du métier, et c’est pourquoi nous revoyons actuellement la classification avec eux.

Et en terme qualitatif ?

En plus de l’aspect data management, on va être en mesure d’extraire de nouvelles métadonnées qui serviront aux métiers, et qui permettront de mieux classifier un document ou une donnée. Avec des critères non pas en terme de richesse de meta pour un data manager, mais pour un métier. Exemple, est-ce que cette sismique est bonne ou pas. Que tout ça puisse servir en critère de pertinence sur un moteur de recherche.

Autre point très important, la constance. On sait qu’on va maintenant avoir quelque chose de fixe dans le temps. Quand on a un ensemble de documentalistes qui travaillent, tout le monde n’a pas forcément les mêmes appréciations, ou on peut observer quelques erreurs. Et cela dégrade notre référentiel. Maintenant ce n’est plus le cas, on arrive à obtenir une classification plus unifiée.

Ces travaux nous ont également permis de développer un outil via un webservice qui va comparer le contenu que l’on a dans le master Puit par exemple avec un rapport généré. Sur le document Puit, on appelle ça le “final well report”. Et bien cet outil nous permet d’ajouter ou de rectifier des informations dans notre master. Exemple, on s’est déjà retrouvé dans la situation où dans le master c’était une profondeur en feet qui était indiquée, alors que dans le rapport elle apparaissait en mètre. Je vous laisse imaginer les conséquences que cela peut avoir sur le terrain.

Côté data management, nous avons donc cette responsabilité de maintenir et améliorer continuellement nos connaissances. On a démarré à 3, et aujourd’hui on est une dizaine de personnes sur ces projets.

Le process de Data Package Classification pour l'intelligence artificielle.
Le process de classification.
Le process d'extraction d'information pour l'intelligence artificielle.
L’extraction d’informations.
Le process de data validation pour l'intelligence artificielle.
La phase de data validation.

Conclusion

Et pour conclure, parlons un petit peu de l’avenir… Quelles sont vos projections en terme de projet pour la suite ?

On regarde la possibilité d’associer du texte à une image, ce qui peut paraître ambitieux mais très utile. Sur une banque d’images, cela nous permettrait d’associer tout le texte relatif à chaque image. Au lieu de sortir tout un rapport, on sort juste la section dans les paragraphes qui nous intéressent. 

Avec le recul, je peux voir toutes les questions que l’on a soulevé ces dernières années, et les réponses que l’on a pu apporter. C’est amusant de constater qu’au début nous étions dans notre coin à se dire “Par rapport à ce petit problème de gestion au sein du service, comment est-ce qu’on peut essayer d’avancer”, et au final on se retrouve à travailler avec Google, avec d’autres entités du groupe, etc… c’est assez génial.

Une interview ou un échange que tu aimerais lire ?

Des gens qui travaillent sur la gestion de gros volumes de données, dans des rapports qui soient structurés de différentes façons. Dans n’importe quel autre secteur, avec de l’intelligence artificielle ou pas. J’adorerais pouvoir échanger.

Le mot de la fin pour conclure ?

Merci pour tout l’intérêt que tu portes à l’évolution de l’intelligence artificielle au sein du data management à Total ! Et même si aujourd’hui c’est moi qui parle, rien n’aurait été possible sans Florian et Elie.

Merci encore à toi Baptiste.

Hugo Le Guennec

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *