Category Archives: Blog

Article de blog

24Avr/19

(2/3) Analyse d’une politique documentaire : cas client

Étude technique : indicateurs ECM

Généralement, les indicateurs (ECM) attendus sont les suivants :

  • Répartition et évolution des documents en nombre et volume
  • Comprendre les pics de création de documents
  • Répartition des documents en fonction de l’organisation (DGA/Pôle/Département ou Service…)
  • Répartition des documents par type de fichiers (extension)

L’indicateur supplémentaire suivant, plus complexe à calculer, est souvent attendu :

  • Recherche de doublons

Phase1 : répartition et évolution

Évolution du nombre total de documents et de leur volume par serveur

Le stockage est actuellement réalisé sur 3 composants :

  1. (réseau M) Lecteur : (Organisationnel)
  2. (réseau N) Lecteur : (Commun)
  3. (serveur Alfresco) : (Serveur Alfresco)

Le nombre de documents augmente constamment sur chaque composant alors qu’on pourrait s’attendre à voir diminuer ce nombre sur les serveurs réseaux au profit du serveur Alfresco. Au contraire, on constate même que le nombre de documents augmente plus vite sur le lecteur réseau « Organisationnel ».

Alfresco est vraisemblablement utilisé pour répondre à d’autres besoins, notamment des besoins collaboratifs.

Répartition des documents en nombre et en volume entre les différents serveurs

Évolution mensuelle du nombre de création de documents et de leur taille moyenne quelle que soit l’origine des documents

En cliquant sur un point précis, on peut avoir l’explication de sa valeur avec le détail des éléments ayant permis son calcul, comme la liste des documents comptabilités. On s’aperçoit ainsi que les pics de création de documents correspondent à des imports en grand nombre d’éléments de taille importante venant par exemple de la direction technique ou de la communication.

Répartition du nombre de documents par Niv1 (DGA) x Niv2 (Pôle) x Niv3 (Direction…)

Répartition des documents en fonction du nombre et du volume selon leur extension

 

Phase 2 : Recherche des doublons

Plusieurs solutions sont possibles :

  • lister les fichiers avec le même nom et regarder par la suite si les documents sont identiques (même taille et même md5). Le hash md5 peut être long à calculer sur des millions de fichiers, cette approche n’est pas toujours envisagée ;
  • lister les fichiers avec le même nom et la même taille en une seule passe et vérifier par la suite s’ils ont la même taille.

Cette seconde approche est souvent plus simple et plus rapide à mettre en oeuvre.

Script

La requête suivante sur ELK permet de récupérer tous les fichiers de plus de 10K dont le nom et la taille sont identiques. Pour garantir qu’il s’agit de doublons, il faudrait utiliser un hash md5 mais à défaut de celui-ci cela permet d’avoir une forte présomption de doublon.

 

Sur cette base, on peut obtenir un fichier json, qui peut être converti en csv, avec finalement les résultats suivants :

  1. Nombre de fichiers > 10 Ko étudiés avec le même nom et la même taille : 10 000 fichiers
  2. Quantité de résultats : 309 173
  3. Nombre de répétitions : 16 à 2432 (situation.xls)
  4. Place occupée : 1 835 Mo
  5. Place optimale : 115 Mo

La taille est multipliée par 15, le nombre de fichiers par 35, ce qui entraîne un gaspillage de ressources, de temps et de maintenance et risque de se traduire par la conservation ‘ad vitam’ de centaines de milliers (pour ne pas dire plusieurs millions) de fichiers redondants…

Les 25 plus grandes répétitions quelle que soit la source

Dans notre cas d’utilisation, on ne connaît que les noms de fichiers, mais pas la source. Pour cela, il faudrait faire une requête supplémentaire sur chaque nom afin de savoir comment il se répartit sur chaque racine.

Le nom des fichiers répétés permet de se faire une idée des fichiers redondants.

Les 25 plus grands gaspillages

Conclusion (Indicateurs ECM)

L’analyse des doublons est un peu “laborieuse” (données à nettoyer). Un indicateur intéressant serait de calculer la répartition des doublons d’un même fichier sur différentes sources afin de mieux comprendre le mécanisme de propagation et mettre en place des actions pour modifier les comportements.

11Mai/18
bluexml expert GED ECM BPM Gestion Documentaire_Alfresco_adf-workbench-logo

Découverte de l’interface ADF pour Alfresco

Étude de faisabilité : l’interface ADF Alfresco

Qu’est ce qu’ADF ?

ADF ou Application Development Framework est le nouvel outil d’interface Alfresco. Il vise, à terme, à remplacer la solution d’interface “Share”, actuellement utilisée. Le projet est open-source et il possède déjà une communauté assez active sur internet.

ADF se base sur le framework Angular 5, ce qui lui apporte beaucoup de flexibilité au niveau des fonctionnalités ainsi qu’une bonne adaptabilité par rapport au support de visualisation (PC, tablette ou téléphone).

La force d’ADF réside également dans son côté customisable : la plupart des fonctionnalités de “Share” peuvent être déployées dans ADF, c’est l’utilisateur qui décide ou non de les faire incorporer par le développeur. On se retrouve donc avec un outil unique, qui s’adapte au mieux aux besoins spécifiques de chacun.

L’interface ADF s’adapte aussi bien à la gestion de fichiers avec l’ECM d’Alfresco, qu’à la gestion de processus avec l’outil de BPM Activiti.

L’interface ADF Alfresco, pour la gestion de contenu numérique

Comme pour l’interface “Share” classique, l’accès aux fonctionnalités de l’application n’est possible qu’après la connexion de l’utilisateur.

La page de connexion

Lorsque l’utilisateur se connecte, il est automatiquement redirigé vers l’explorateur de fichiers. La gestion des droits étant prise en compte, il n’aura accès qu’aux répertoires auxquels il est autorisé. Depuis cette interface il pourra également créer un nouveau répertoire ou ajouter un fichier (via un bouton ou en drag’n’drop). Une fonctionnalité de recherche existe également afin de retrouver plus rapidement un document particulier.

L’explorateur de fichiers

Quand l’utilisateur arrive sur le document qui l’intéresse, le volet d’options permet plusieurs actions : copier le document, le télécharger, le déplacer, le supprimer ou encore voir les différentes versions de ce document. Cette liste n’est pas exhaustive, d’autres actions sont à disposition mais n’ont pas été mise en place dans notre monture de test (le partage du document vers l’extérieur notamment).

L’onglet détails permet d’afficher toutes les actions relatives au document : la visualisation, l’affichage et l’édition des métadonnées ainsi que les différentes versions de ce document.

Les options disponibles pour un fichier

La visionneuse de documents

Options d’édition des métadonnées

Encore une fois ces fonctionnalités ne représentent pas la totalité des possibilités offertes par ADF.

ADF prend en charge le versioning

L’interface ADF Alfresco : Ressentis

Ainsi, l’application ADF offre vraiment énormément de possibilités que ce soit pour Alfresco ou Activiti. Les modules node mis à disposition pour les équipes de développeur Alfresco sont très complets et des documentations détaillées sont accessibles sur le GitHub du projet. La création de sa propre application avec les modules qui nous sont utiles est assez simple, même si des connaissances de base en Angular sont les bienvenues.

Cela conclu le premier billet de blog dédié à ADF, traitant de l’aspect ECM. Un autre article arrive prochainement, qui exposera les possibilités qu’offre ADF pour l’outil de BPM Activiti.

Vous souhaitez en apprendre plus sur Alfresco Content Services ? Lisez l’article Alfresco Content Services : solution Open Source de gestion documentaire

Vous souhaitez en apprendre plus sur Alfresco Process Services ? Lisez l’article Alfresco Process Services : solution Open Source de gestion de processus documentaires