Category Archives: Blog

Article de blog

29Mar/21
Alfresco Digital Workspace versus Alfresco Share par Bluexml

Alfresco Digital Workspace vs Alfresco Share

Bluexml, expert majeur en dématérialisation de l’information vous présente Alfresco Digital Workspace (ADW) qui va, à terme, remplacer l’application historique Alfresco Share. 

Share : Une fin de maintenance annoncée et fixée

En effet, Alfresco a indiqué que le support de l’application Share sera assuré jusqu’au mois de mars 2024. Cette date  correspond à la fin de maintenance de la version 7.0 d’Alfresco Content Services. Avec cette date fixée, il est officiel qu’elle ne sera bientôt plus supportée. Il est donc nécessaire d’anticiper cette décision en migrant vers la nouvelle application cliente Alfresco : Alfresco Digital Share (ADW).

ADW : Une application plus ergonomique et plus flexible

Par rapport à Share, ADW possède les avantages suivants : 

  • Facilité de personnalisation et d’extension afin de répondre à l’ensemble de vos besoins. Contrairement à Share, il est possible de modifier l’agencement des composants.
  • Mise à disposition nativement d’un grand nombre de composants. En effet, via Application Development Framework (ADF), Alfresco met à disposition un grand nombre de composants prêts à l’intégration dans vos applications. Alfresco Digital Workspace est donc construit à partir de multiples composants en ADF.
  • Aisance d’utilisation de par son interface graphique encore plus ergonomique que la version précédente.
  • Des fonctions clefs prêtent à l’emploi comme la gestion documentaire, le partage de documents, les permissions ou encore la collaboration sur l’ensemble des documents stockés.
  • Facile à déployer via le fichier WAR (Web ARchive) ou son image Docker.
  • Peu gourmande en termes de ressources sur le serveur sur lequel elle est déployée.
  • Compatibles avec APS (process services) et AGS (governance services). Cette nouvelle version permet donc d’interagir avec ces deux composants afin de proposer leurs fonctionnalités via l’utilisation de leur API REST. 

Enfin, celle-ci fonctionne également à partir d’Alfresco Content Services (ACS) 6.1 et son code source est disponible sur simple demande auprès du support Alfresco. 

Voici donc quelques captures d’écrans de la nouvelle application :

(cliquez sur la capture pour l’afficher en plein écran)

Une version également disponible pour la Community d’ACS

La Community d’Alfresco Content Services possède elle aussi une version plus moderne de l’interface client proche de la version ADW. Plus précisement, ADW se base sur le code de cette version Community (à l’image de la version Enterprise d’ACS qui est basée sur celle de la version Community). 

Elle se nomme « Alfresco Content Application » (ACA) et elle est, elle aussi, communautaire (https://github.com/Alfresco/alfresco-content-app). 

Basée sur un Framework Open Source répandu

Tout comme ACA, ADW se base sur le Framework Angular développé par Google. En effet, c’est un Framework Open Source écrit en JavaScript et facilitant grandement la réalisation d’applications Web. Il permet une meilleure adoption par les utilisateurs finaux, grâce à une ergonomie moderne et intuitive. Angular s’appuie sur une architecture de type MVC1 qui repose sur un principe de séparation entre les données, les vues et les actions. Ceci permet donc une meilleure maintenabilité. 

Une portabilité des fonctionnalités présentes dans Share

ADW comportera, à terme, la quasi-totalité des fonctionnalités présentes dans l’application Share et même de nouvelles fonctionnalités. 

Son équivalent “Alfresco Content Application” pour la version Community d’Alfresco Content Services, va également bénéficier d’une intégration d’un certain nombre de fonctionnalités présentes dans Share. 

Pour conclure, le tableau ci-dessous présente, pour chaque fonctionnalité, son statut dans les différentes versions :

Tableau des fonctionnalités ADW/ACA/Share

tableau comparatif
tableau comparatif

Légende : ü Présente dans la version actuelle – û Non présente dans la version actuelle – ֍ Planifiée dans une future version – ● En attente de validation pour intégration dans une future version.

Ainsi, si vous souhaitez migrer votre application Share vers ADW ou développer une nouvelle interface sous ADW, contactez-nous sur info@bluexml.com.

Vous êtes intéressés par la solution Alfresco ?

11Déc/20
Webinar YouSign - bluexml expert ECM GED BPM Archivage Signature électroniqueWebinar YouSign - bluexml expert ECM GED BPM Archivage Signature électronique

Vidéo du webinaire YouSign + Alfresco : Faire signer vos documents depuis votre GED n’a jamais été aussi simple

Ce nouveau webinaire bluexml a pour objectif de vous expliquer pas à pas la GED avec Yousign et Alfresco.
Tout d’abord, nous vous présenterons les activités de Yousign et bluexml, puis nous vous expliquerons la connexion entre YouSign et Alfresco.
Le webinaire se finira par une démo concrète.

Les webinaires bluexml ont tous pour objectif de vous présenter la flexibilité et la pertinence des outils de gestion de l’information.
Chacun de nos webinaires est accompagné d’experts bluexml divers et variés (ingénieur développeur, business analyst, ingénieur commercial …).
De plus, nos présentations ont pour but de vous présenter de nombreuses solutions logicielles.
Au cours des vidéos, nous vous détaillerons le fonctionnement de ces solutions, à l’aide d’exemples concrets (cas clients, explications par des experts bluexml, problématiques clients …).

Bluexml et Yousign vous proposent une présentation avec des éléments concrets pour implémenter la signature électronique depuis votre GED.
En effet, ce webinaire sera l’occasion de faire une démonstration de la solution Yousign, avec le démarrage du processus de signature depuis Alfresco Content Services.

Avec ce webinaire, apprenez à gérer, valider, signer et classer vos documents essentiels dans un processus entièrement dématérialisé.

Vous souhaitez voir les autres webinaires bluexml ? La gestion de contenu vous intéresse ?

29Oct/20
bluexml expert GED ECM BPM Gestion Documentaire_Webinaire_Ephesoft

Vidéo du webinaire Ephesoft et Alfresco par Bluexml

Retrouvez notre webinaire Ephesoft et Alfresco sur la dématérialisation :

Ce nouveau webinaire bluexml a pour objectif de vous expliquer pas à pas la dématérialisation avec Alfresco et Ephesoft.
Tout d’abord, nous vous présenterons les activités d’Ephesoft et bluexml, puis les solutions Ephesoft Transact et Alfresco.
Le webinaire se finira par une séquence de questions/réponses.


Les webinaires bluexml ont tous pour objectif de vous présenter la flexibilité et la pertinence des outils de gestion de l’information.
Chacun de nos webinaires est accompagné d’experts bluexml divers et variés (ingénieur développeur, business analyst, ingénieur commercial …).
De plus, nos présentations ont pour but de vous présenter de nombreuses solutions logicielles.
Au cours des vidéos, nous vous détaillerons le fonctionnement de ces solutions, à l’aide d’exemples concrets (cas clients, explications par des experts bluexml, problématiques clients …).

 

 

Vous souhaitez voir les autres webinaires bluexml ? La gestion de contenu vous intéresse ?

– Retrouvez donc notre replay “La signature électronique de vos documents avec Yousign et Alfresco“.

– Retrouvez donc notre replay  “Prenez l’avantage avec Bonita ! Optimisez vos processus métiers !“.

– Retrouvez donc notre replay “Améliorez l’utilisation de votre solution Alfresco en intégrant notre suite de composants bluexml“.

Pour suivre notre actualité et nos conseils, rendez-vous sur notre page Linkedin bluexml.

 

 

28Sep/20
Webinaire Ephesoft et Alfresco - bluexml expert ECM GED BPM Archivage Signature électronique

Webinaire Ephesoft + Alfresco : Dématérialisez et gérez vos dossiers en toute facilité avec Ephesoft et Alfresco

Bluexml et Ephesoft vous proposent une démonstration de la plateforme Ephesoft, axée sur la dématérialisation. Celle-ci extrait et transforme les données non structurées en informations qualifiées. Ainsi, cela automatise les processus métiers des utilisateurs.
Nous verrons aussi la connexion possible entre Ephesoft et la GED Alfresco. Ce webinaire se déroulera le 13 octobre 2020, entre 10h et 11h.

 

bluexml expert ECM GED BPM Ephesoft Gold Partner

bluexml est votre expert en ECM, GED et BPM. Nous sommes fiers d’être partenaire avec Ephesoft Gold Partner, ainsi qu’Alfresco Hyland.

Cette qualification automatique de l’information est réalisée à l’aide d’Ephesoft Transact. Celle-ci permet de définir des règles d’extraction basées sur des mots-clés, des expressions régulières ainsi que des actions humaines de vérification.

Ce webinaire sur la dématérialisation, sera l’occasion de vous faire une démonstration de la solution Ephesoft Transact, avec le déversement des documents dématérialisés dans une GED Alfresco. Ainsi que l’attachement des métadonnées associées, qui donne la possibilité de classer automatiquement les documents à partir de leur contexte.

Cliquez ici pour vous inscrire au webinaire

 

Vous souhaitez voir les autres webinaires bluexml ? Vous êtes intéressé par la gestion de contenu d’entreprise ?

– Retrouvez notre replay sur la “Signature électronique de vos documents avec Yousign et Alfresco

– Retrouvez notre replay et  “Prenez l’avantage avec Bonita ! Optimisez vos processus métiers !

– Retrouvez notre replay et  “Dématérialisez et gérez vos dossiers en toute facilité avec Ephesoft et Alfresco

– Retrouvez notre replay et  “Améliorez l’utilisation de votre solution Alfresco en intégrant notre suite de composants bluexml

Si vous voulez suivre notre actualité et nos conseils, rendez-vous donc sur notre page Linkedin bluexml.

15Sep/20
documation-2020-digital-workplace - bluexml expert ECM GED BPM Archivage Signature électronique

ADF/ADW/Process : pilotez vos process avec la nouvelle Digital Workspace d’Alfresco

bluexml vous attend au salon Documation les 22, 23 et 24 septembre 2020 – Sujet : la nouvelle Digital Workspace d’Alfresco (ADW et dématérialisation)

Pavillon 4.3 / stand D76-E75

Le 24/09 à 16h, atelier ADF/ADW/Process : dématérialisez vos marchés avec la nouvelle Digital Workspace d’Alfresco !

 

bluexml vous attend au salon Documation les 22, 23 et 24 septembre 2020 – Sujet : la nouvelle Digital Workspace d’Alfresco (ADW et dématérialisation)

Basé sur un REX du CD34, cet atelier présentera comment le CD34 a intégré la nouvelle Digital Workspace d’Alfresco avec Flowable dans le cadre de la dématérialisation des marchés.

Vous êtes intéressé par la gestion de contenu ? Vous voulez en savoir plus sur toutes les fonctionnalités des multiples solutions digitales Alfresco disponibles :

Nos prestations :

  • Souhaitez-vous en apprendre plus sur nos prestations de conseil (bluexperience) cliquez ici.
  • Aimeriez-vous en apprendre plus sur nos prestations d’intégration et de développement, cliquez ici.
  • Souhaitez-vous en apprendre plus sur nos prestations de tierce maintenance, cliquez ici.
22Juin/20
UiPath RPA - bluexml expert ECM GED BPM Archivage Signature électronique

Remarque n°3 : RPA et productivité, attention au crash !

Remarque n°3 : RPA et productivité, attention au crash !

On peut multiplier la productivité par 5 (x5), par 10 (x10), voire plus, grâce à l’automatisation (RPA) mais jusqu’à quel point ? Au delà de l’installation de nouveaux serveurs, de l’achat de nouvelles licences du système d’exploitation, le partage du travail peut être subtil et quelques embûches commencent à apparaître. Et alors, dans ce cas-là, attention au crash !

Imaginez que vous mettez 3 robots en place pour traiter 30 000 documents, chaque document nécessitant un traitement de 1 à 2 minutes. Plusieurs stratégies sont possibles :

  1. La solution de partage qui vient immédiatement à l’esprit consiste à découper la liste de 30 000 documents en 3, soit 10 000 documents à traiter par robot. Le robot n°1 traitera donc les documents de 1 à 10 000, le robot n°2 de 10 001 à 20 000 et le robot n°3 de 20 001 à 30 000. Cependant, comme la durée de traitement n’est pas uniforme, il se peut que le robot n°1 termine bien avant le n°2 et le n°3, à moins que ce ne soit le n°2 qui termine en premier ;
  2. Pour éviter que certains robots n’attendent à ne rien faire, il faut donc mettre en place une stratégie de réaffectation. Dès qu’un robot a terminé sa liste de documents à traiter, il demande aux autres robots des tâches à réaliser. Ce travail de réaffectation nécessite une intelligence d’orchestration qui doit intervenir jusqu’à épuisement des documents ;
  3. Finalement, il vaut peut-être mieux créer 3 files d’attente, une pour chaque robot, l’orchestrateur étant chargé d’alimenter au fur et à mesure chaque file d’attente de documents à traiter quels que soient les temps de traitement.

Imaginez maintenant que chaque traitement d’un document nécessite lui aussi un ou plusieurs robots, pour lesquels on va retomber dans les mêmes problématiques…

Conclusion :

On voit donc qu’on peut facilement augmenter la productivité en ajoutant un ou plusieurs robots (RPA automatisation), mais que cela nécessite immédiatement un travail supplémentaire d’orchestration, afin d’éviter le crash. Heureusement, les moteurs de RPA commencent à intégrer des modèles (on dit des patterns) de répartition pour les listes de tâches à faire, mais on voit que le système devient également plus complexe, donc plus couteux à mettre en place, à corriger, à faire évoluer… ce qui vient réduire le gain de productivité.

22Juin/20
UiPath RPA productivité des services - bluexml expert ECM GED BPM Archivage Signature électronique

Remarque n°2 : grâce au RPA, x10 et au-delà votre productivité

Remarque n°2 : grâce au RPA (robot), x10 et au-delà votre productivité

Comme on l’a vu précédemment, par le simple fait d’automatiser, vous multipliez par 5 (x5) votre productivité. Il suffit d’ajouter un deuxième robot (RPA) pour multiplier par 10 (x10) votre productivité, un troisième pour la multiplier par 15 (x15)…

Cependant, travailler avec plus d’un robot nécessite de partager et coordonner éventuellement les tâches. Ce travail de coordination est généralement dévolu à un outil qu’on appelle l’orchestrateur. Au-delà du coût que peut représenter l’ajout d’un robot (nouveau serveur, nouvelle licence windows…), il faut également considérer le coût de l’orchestrateur.

En outre, si vous traitez une liste de documents, il faut éviter que chaque robot ne traite le même, ce qui peut paraître simple mais ne l’est pas toujours dans certaines situations. Du coup, l’orchestration n’est pas seulement une problématique financière (nouvelle licence) mais aussi fonctionnelle car il faudra partager le travail de manière intelligente, et le robot, qui ne l’est pas quoiqu’on dise (intelligent), ne pourra le faire pour vous. Il faudra donc développer une stratégie de partage du travail.

  •  Vous n’avez pas lu notre remarque n°1, cliquez ici. Notre première remarque porte sur la possibilité de multiplier votre productivité par 5.
  • Vous êtes curieux, n’hésitez donc pas à lire notre remarque n°3 . Notre troisième remarque portera sur les risques de crash et la solution pour les éviter !

Nos prestations :

  • Souhaitez-vous en apprendre plus sur nos prestations de conseil (bluexperience) cliquez ici.
  • Aimeriez-vous en apprendre plus sur nos prestations d’intégration et de développement, cliquez ici.
  • Souhaitez-vous en apprendre plus sur nos prestations de tierce maintenance, cliquez ici.
18Juin/20
UiPath RPA productivité des services - bluexml expert ECM GED BPM Archivage Signature électronique

Remarque n°1 : grâce au RPA, x5 votre productivité

Remarque n°1 : grâce au RPA, x5 votre productivité

Un opérateur humain travaille environ 7h30 par jour, dont les 2/3 seulement sont productives (soit 5h), du fait des pauses, des réunions et des tâches annexes qui viennent s’intercaler dans le travail à faire. Une journée de travail d’un ordinateur est de 24h. Pourquoi pas envisager le RPA, pour augmenter votre productivité ?

D’un point de vue strictement mathématique, si on considère donc une procédure réalisée par un opérateur humain, automatisée grâce au RPA, l’efficacité est augmentée par 5.

En fait, l’efficience est supérieure car l’ordinateur ne fait pas d’erreur et les cas non conformes sont mis de côté pour être traités ultérieurement, par exemple par un opérateur humain.

  •  Vous êtes curieux, n’hésitez donc pas à lire notre remarque n°2 . Notre deuxième remarque portera sur la possibilité de multiplier votre productivité par 10.
  • Vous êtes curieux, n’hésitez donc pas à lire notre remarque n°3 . Notre troisième remarque portera sur les risques de crash et la solution pour les éviter !

Nos prestations :

  • Souhaitez-vous en apprendre plus sur nos prestations de conseil (bluexperience) cliquez ici.
  • Aimeriez-vous en apprendre plus sur nos prestations d’intégration et de développement, cliquez ici.
  • Souhaitez-vous en apprendre plus sur nos prestations de tierce maintenance, cliquez ici.
14Mai/19
bluexml expert GED ECM BPM Gestion Documentaire_Alfresco_Bonita_YouSign_superviser_alfresco

Bluexml et la supervision  : BlueReport

Description

/Users/bxml/Desktop/Tmp/Screenshots/Capture d’écran 2019-05-06 à 16.49.17.png

bluereport est un composant qui fournit des indicateurs fonctionnels aux responsables de sites et aux administrateurs de la plateforme, ceci est réalisé dans le but de faciliter le suivi et l’animation des sites collaboratifs, et des indicateurs techniques pour contrôler le fonctionnement des services Alfresco. Selon leur rôle dans l’organisation, les agents ont différents besoins.

  • Premièrement, les cadres ont besoin d’informations sur l’utilisation du système, son évolution dans le temps, par typologie et sur tous différents axes possibles (volume de stockage, nombre de documents). Ceci dans le but de justifier d’éventuels investissements qui contribueront à améliorer l’efficacité du système pour répondre aux besoins de l’organisation.
  • Deuxièmement, les agents en charge de l’administration fonctionnelle et du support aux utilisateurs de l’application de dématérialisation ont besoin d’informations. Cela leur permet de mieux comprendre les problèmes, leur typologie, leur origine, afin de justifier d’éventuels développements pour faciliter leur tâche et améliorer l’expérience utilisateur.
  • Troisièmement, les agents en charge de l’exploitation du système ont besoin d’informations afin de diagnostiquer certains problèmes techniques et de faciliter la communication avec les équipes de TMA.

Ainsi, bluereport vous fournit différents tableaux de bord en fonction de vos droits :

(1) Indicateurs fonctionnels : nombre et volume de stockage des documents métiers (cf figure 1), nombre des documents en cours de dématérialisation – qualifiés et non classés (cf figure 2).

(2) Indicateurs d’administration fonctionnelle : nombre d’erreurs (cf figure 3), d’anomalies.

(3) Indicateurs techniques d’exploitation : quantité de ressources utilisées – mémoire, CPU (cf figure 4), logs.

En somme, ces indicateurs peuvent être déclinés par service, dans le temps, afin d’affiner l’analyse et identifier les problèmes, leur origine. En centralisant les logs issus des différents éléments de l’architecture, le diagnostic des problèmes sera donc facilité. Donc ceci contribuera à fournir un service plus efficace.

Indicateurs fonctionnels

Une image contenant capture d’écran, moniteur, intérieur, mur Description générée automatiquement

Figure 1  : Activité des documents “finance”

Une image contenant capture d’écran, moniteur, intérieur, mur Description générée automatiquement

Figure 2  : Nombre de documents en cours de dématérialisation (qualifiés et non classés)

Indicateurs fonctionnels d’administration

Une image contenant moniteur, capture d’écran, intérieur, ordinateur Description générée automatiquement

Figure 3  : Documents en erreur

Indicateurs techniques

Le composant bluereport permet aussi de donner des indicateurs techniques, concernant la plateforme Alfresco.

Une image contenant moniteur, intérieur, mur, horloge Description générée automatiquement

Figure 4  : Ressources du serveur d’application

Fonctionnalités

Finalement, voici la liste des fonctionnalités existantes.

STATISTIQUES FONCTIONNELLES

FONC_1 – NOMBRE DE DOCUMENTS EXISTANTS

STATISTIQUES D’ADMINISTRATION

ANOMALIES

ANO_1 – NOMBRE DE DOCUMENTS EN ATTENTE DE CLASSEMENT

ANO_2 – NOMBRE DE DOCUMENTS EN ERREUR

PROCESSUS

PROCESS_1 – DEMAT – DOCS ENTRANTS

PROCESS_2 – DEMAT – DOCS QUALIFIES

PROCESS_3 – DEMAT – DOCS CLASSES

PROCESS_4 – DEMAT – DOCS NON CLASSES

PROCESS_5 – FINANCE – SUIVI DES FACT.

PROCESS_6 – RH – NOMBRE DE DOCS.

RECHERCHE

RECHERCHE_1 – RECHERCHES

STATISTIQUES D’EXPLOITATION

PLATEFORMES ALFRESCO

EXP_SRV_1 – CHARGE PROCESSEUR.

EXP_SRV_2 – CHARGE MÉMOIRE.

EXP_SRV_3 – CHARGE DISQUE.

EXP_SRV_4 – ESPACE DISQUE DISPONIBLES.

SERVEUR D’APPLICATION

EXP_APP_1 – CHARGE PROCESSEUR.

EXP_APP_2 – CHARGE MÉMOIRE.

EXP_APP_3 – AJP – DISPONIBILITÉS.

EXP_APP_4 – AJP – TEMPS DE TRAITEMENTS.

EXP_APP_5 – TEMPS DE DISPONIBILITÉ.

EXP_APP_6 – SUIVI DES JOURNAUX.

EXP_APP_7 – NB DE SESSIONS OUVERTES.

EXP_APP_8 – DURÉE MOY. DES SESSIONS.

SERVEUR BASE DE DONNÉES

EXP_BDD_1 – CHARGE PROCESSEUR.

EXP_BDD_2 – CHARGE MÉMOIRE.

EXP_BDD_3 – ESPACE DISQUE DISPONIBLE.

Vous souhaitez donc en savoir plus sur notre prestation d’intégration et développement ? Lisez notre article

 

 

24Avr/19

(2/3) Analyse d’une politique documentaire : cas client

Étude technique : indicateurs ECM

Généralement, les indicateurs (ECM) attendus sont les suivants :

  • Répartition et évolution des documents en nombre et volume
  • Comprendre les pics de création de documents
  • Répartition des documents en fonction de l’organisation (DGA/Pôle/Département ou Service…)
  • Répartition des documents par type de fichiers (extension)

L’indicateur supplémentaire suivant, plus complexe à calculer, est souvent attendu :

  • Recherche de doublons

Phase1 : répartition et évolution

Évolution du nombre total de documents et de leur volume par serveur

Le stockage est actuellement réalisé sur 3 composants :

  1. (réseau M) Lecteur : (Organisationnel)
  2. (réseau N) Lecteur : (Commun)
  3. (serveur Alfresco) : (Serveur Alfresco)

Le nombre de documents augmente constamment sur chaque composant alors qu’on pourrait s’attendre à voir diminuer ce nombre sur les serveurs réseaux au profit du serveur Alfresco. Au contraire, on constate même que le nombre de documents augmente plus vite sur le lecteur réseau « Organisationnel ».

Alfresco est vraisemblablement utilisé pour répondre à d’autres besoins, notamment des besoins collaboratifs.

Répartition des documents en nombre et en volume entre les différents serveurs

Évolution mensuelle du nombre de création de documents et de leur taille moyenne quelle que soit l’origine des documents

En cliquant sur un point précis, on peut avoir l’explication de sa valeur avec le détail des éléments ayant permis son calcul, comme la liste des documents comptabilités. On s’aperçoit ainsi que les pics de création de documents correspondent à des imports en grand nombre d’éléments de taille importante venant par exemple de la direction technique ou de la communication.

Répartition du nombre de documents par Niv1 (DGA) x Niv2 (Pôle) x Niv3 (Direction…)

Répartition des documents en fonction du nombre et du volume selon leur extension

 

Phase 2 : Recherche des doublons

Plusieurs solutions sont possibles :

  • lister les fichiers avec le même nom et regarder par la suite si les documents sont identiques (même taille et même md5). Le hash md5 peut être long à calculer sur des millions de fichiers, cette approche n’est pas toujours envisagée ;
  • lister les fichiers avec le même nom et la même taille en une seule passe et vérifier par la suite s’ils ont la même taille.

Cette seconde approche est souvent plus simple et plus rapide à mettre en oeuvre.

Script

La requête suivante sur ELK permet de récupérer tous les fichiers de plus de 10K dont le nom et la taille sont identiques. Pour garantir qu’il s’agit de doublons, il faudrait utiliser un hash md5 mais à défaut de celui-ci cela permet d’avoir une forte présomption de doublon.

 

Sur cette base, on peut obtenir un fichier json, qui peut être converti en csv, avec finalement les résultats suivants :

  1. Nombre de fichiers > 10 Ko étudiés avec le même nom et la même taille : 10 000 fichiers
  2. Quantité de résultats : 309 173
  3. Nombre de répétitions : 16 à 2432 (situation.xls)
  4. Place occupée : 1 835 Mo
  5. Place optimale : 115 Mo

La taille est multipliée par 15, le nombre de fichiers par 35, ce qui entraîne un gaspillage de ressources, de temps et de maintenance et risque de se traduire par la conservation ‘ad vitam’ de centaines de milliers (pour ne pas dire plusieurs millions) de fichiers redondants…

Les 25 plus grandes répétitions quelle que soit la source

Dans notre cas d’utilisation, on ne connaît que les noms de fichiers, mais pas la source. Pour cela, il faudrait faire une requête supplémentaire sur chaque nom afin de savoir comment il se répartit sur chaque racine.

Le nom des fichiers répétés permet de se faire une idée des fichiers redondants.

Les 25 plus grands gaspillages

Conclusion (Indicateurs ECM)

L’analyse des doublons est un peu “laborieuse” (données à nettoyer). Un indicateur intéressant serait de calculer la répartition des doublons d’un même fichier sur différentes sources afin de mieux comprendre le mécanisme de propagation et mettre en place des actions pour modifier les comportements.