Industrialiser la reprise de documents Alfresco et Efalia. docLoader
- juin 1, 2026
- Alfresco, Article, Efalia, Expertises, Technique
Le même défi, à chaque projet !
Depuis de nombreuses années, les équipes bluexml accompagnent collectivités, entreprises et organisation publics dans la reprise de documentaires existants vers des GED modernes (Alfresco, Efalia). Ces projets partagent presque toujours les mêmes caractéristiques :
- Des volumes significatifs : de quelques dizaines de milliers à plusieurs millions de fichiers,
- Des sources hétérogènes : partages réseau historiques, exports Multigest, arborescences agents, fonds scannés,
- Des plans de classement complexes : 200 à 500 gabarits, rubriques métier, matrices de permissions par rôle, métadonnées réglementaires,
- Des réglementations fortes : durées de conservation, traçabilité, confidentialité, délais serrés de bascule.
Chaque migration ressemblait à la précédente, avec sa part de scripts ad hoc, de tableaux Excel de correspondance, d’itérations par essai-erreur, et de reprises manuelles après la découverte tardive d’un cas non prévu, avec l’angoisse de rater un document parmi les plusieurs millions à livrer.
Face à cette répétition et à l’enjeu croissant du temps (un chargement document par document via API sur 1 Million de fichiers, c’est plusieurs semaines de traitement), nos équipes ont décidé de transformer ce savoir-faire accumulé en un outil réutilisable, industrialisable et mesurable. C’est la naissance de docLoader.
Ce que fait docLoader
docLoader est une application web légère (Spring Boot, base H2 embarquée, IHM Thymeleaf) qui se déploie en une commande sur un poste ou un serveur, et prend en charge toute la chaîne :
- Scan d’une arborescence source avec patterns de chemin configurables (glob avec variables nommées comme « Agents/{nom}{prenom}{matricule}/**».
- Extraction du texte via Apache Tika (PDF, bureautiques, images OCR).
- Classification automatique en cascade, du moins coûteux au plus coûteux :
- Motifs (regex, phrases littérales, mots significatifs en ordre sans stopwords) → ~1 ms par document, confiance 0,95.
- Embeddings sémantiques (similarité cosinus contre les vecteurs pré-calculés des gabarits) → rattrape les formulations sémantiquement proches mais lexicalement distantes.
- LLM génératif (Llama 3.2, Mistral via Ollama) en dernier recours sur les cas ambigus.
4. Extraction de métadonnées selon le gabarit retenu (regex, variable de chemin, valeur fixe, ou LLM pour les champs libres).
5. Production du « staging » Alfresco Bulk Importou Efalia Utilities Bulk Import, avec permissions CAMS (Consultation Ajout Modification Suppression) par rôle, via des fichiers associées « <nom du fichier à importer>.metadata.properties.xml » et « <nom du fichier à importer>.permissions.properties.xml ».
6. Isolation des cas particuliers dans des dossiers dédiés : « fichiers non océrisés → AOcerise/, fichiers hors scope → AClasser/, faibles confiances → AReviser/ ».
Des fonctionnalités qui font la différence
Plan de classement configurable via IHM. Import Excel pour initialiser en masse catégories, gabarits, métadonnées et matrice CAMS de permissions. Tuning fin via « /admin/doctypes » et « /admin/spaces ». Import idempotent : réimporter ne duplique rien.
Ce que ça change sur le terrain
Sur un projet récent de dossiers individuels (corpus cible ~1 Million de documents, +200 espaces, ~10 rôles métier, +5 niveaux CAMS) :
- Paramétrage initial du plan de classement : quelques heures via import Excel et ajustement IHM, contre plusieurs jours en scripts manuels auparavant.
- Dry-run complet sur un périmètre test : tour d’horizon en minutes, pas de découverte tardive de cas non prévus.
- Production du staging complet : quelques heures, là où un chargement doc-par-doc via API aurait pris des semaines.
- Revue qualité : les cas douteux sont identifiés et isolés automatiquement, l’utilisateur pilote sa charge au lieu de la subir.
En résumé
Avec le recul, avoir disposé de docLoader dès nos premiers projets de reprise nous aurait évité :
- Des semaines de surcharge pour nos équipes sur des tâches qui auraient dû être automatisées dès le départ,
- Des reprises manuelles coûteuses chez nos clients quand un cas non prévu passait entre les mailles des scripts ad hoc,
- Des délais allongés sur les gros volumes, avec le risque de repousser la date de bascule métier,
- De la difficulté à garantir la traçabilité en fin de projet (qui a validé quoi, combien de cas ambigus, quelle méthode a classé quoi),
- Et surtout, la fatigue d’équipes tiraillées entre livraison technique et accompagnement fonctionnel sur les mêmes projets successifs.
docLoader transforme ce qui était auparavant un projet « sur-mesure douloureux » en une démarche outillée, reproductible et mesurable, où la qualité et la performance sont des livrables visibles et pas des espérances.
Et parce que l’outil est conçu pour capitaliser, docLoader continue d’évoluer, « embeddings » français spécialisés, extraction ciblée de métadonnées agent, vision LLM pour les formulaires scannés, revue batch, signaux croisés depuis les conventions de nommage… autant de briques qui accumulent l’intelligence engrangée sur chaque projet.
Votre prochain projet de reprise documentaire nous trouvera outillés.