(article en cours d'écriture)
Le 20 février 2007, j'ai voulu convertir 8 documents du Ministère français de l'Écologie au format PDF, pour les transmettre en HTML à une personne qui m'en avait fait la demande (et qui utilisant un ordinateur avec des logiciels un peu anciens ne pouvait ouvrir lesdits fichiers PDF).
Là où ça devient amusant :
$ pdftohtml Note_aux_prefets_sols_pollues_08_02_07.pdf Error: PDF version 1.6 -- xpdf supports version 1.4 (continuing anyway) Error: Copying of text from this document is not allowed.
Le logiciel libre pdftohtml m'informe que la copie du texte de cette note aux préfets relatives aux sites et sols pollués ne serait pas autorisée. Pas techniquement autorisée car pour le reste, ce document est tout ce qu'il y a de public et d'officiel. D'ailleurs il est bien précisé dedans que Mme la ministre N. Olin « invite à faire une très large diffusion auprès de l'ensemble des acteurs locaux concernés de ce guide. » (ça tombe bien je veux le transmettre à une victime sur un site pollué) et la page web précise « L'ensemble des textes et des outils sont consultables sur le site ». Le site indique par ailleurs « A l'exception de l'iconographie, la reproduction (à but non lucratif) des pages de ce site est autorisée à la condition d'y mentionner la source. En revanche, le contenu de ce site ne peut être reproduit ou utilisé à des fins commerciales ou publicitaires. ». Bref une « mesure technique de protection » ou plutôt un dispositif de contrôle de l'usage veut m'interdire un usage légitime sur un document officiel minstériel public (qui plus est provenant d'un ministère qui devrait pourtant être sensible à la préservation des écosystèmes, fussent-ils informationnels).
$ man pdftohtml (...) -nodrm override document DRM settings (...)
L'outil pdftohtml dispose d'une option pour passer outre, baptisée très clairement -nodrm (un DRM est un dispositif de contrôle de l'usage).
$ pdftohtml -nodrm Note_aux_prefets_sols_pollues_08_02_07.pdf Error: PDF version 1.6 -- xpdf supports version 1.4 (continuing anyway) Document has copy-protection bit set. Page-1 Page-2
Je venais donc d'effectuer un contournement de mesures techniques de protection pour pouvoir permettre la lecture de ce document.
Au passage, notons que ce ministère sait parfois se montrer plus ouvert : la page « Développement et gestion du site » mentionne notamment qu'il utilise « (entre autres) un ensemble de logiciels issus du monde "libre", dont en particulier :
Les spécifications du PDF sont disponibles et utilisables (1236 pages). Comme le dit T. Stœhr sur Formats-ouverts.org « Certes Adobe est le seul concepteur du format PDF et aussi son propriétaire, mais il est ouvert et permet l'interopérabilité : outre ceux d'Adobe, le PDF est lu par de nombreux logiciels, et le PDF est créé par de nombreux autres logiciels que ceux d'Adobe (de LaTeX - comme pour le PDF d'Ouagadougou - à OpenOffice.org, en passant par divers programmes). »
« Le 10 octobre 2005 l'Organisation internationale de la normalisation (ISO) annonçait dans un communiqué de presse l'établissement de la norme ISO 19005 qui définit un "format de fichier des documents électroniques pour une conservation à long terme".
Le format utilisé est dénommé PDF/A, pour PDF Archive. Il est basé sur le format PDF (Portable Document Format) version 1.4 de la société Adobe. La norme a été élaborée par le Sous-comité SC 2, Applications de ISO/TC 171, Applications en gestion des documents. » (article Formats-ouverts.org sur ISO 19005-1:2005 PDF/A)
J. Barens d'Adobe a par ailleurs précisé lors de la seconde journée du forum e-government à Issy-les-Moulineaux en 2006 que le PDF est un « standard propriétaire, publié, libre de droits ».
On notera que l'entreprise Adobe qui en est à l'origine demande le respect des restrictions d'usage choisies par l'auteur pour son document (du type pas de copier/coller ou pas d'impression possible). Ainsi le document PDF Reference, version 1.7 indique page 122 [bel exemple de copier/coller d'un PDF, traduit par la suite] « Note : une fois que le document a été ouvert et déchiffré avec succès, l'application a accès à tous les contenus. Il n'y a rien d'inhérent au chiffrement PDF qui assurerait le respect des permissions indiquées dans le dictionnaire de chiffrement. C'est aux implémenteurs des applications PDF finales de respecter l'intention de l'auteur du document en restreignant les accès de l'utilisateur au document PDF chiffré suivant les permissions présentes dans le fichier.
Note : PDF 1.5 introduit un ensemble de permissions d'accès qui ne requièrent pas le chiffrement du document »
Le lecteur libre de PDF Xpdf n'applique pas ce genre de restrictions par exemple : « Si les fonctionnalités de sécurité sont activées par l'auteur d'un document PDF, le fichier sera chiffré. Ces fonctionnalités de sécurité permettent à l'auteur d'interdire l'impression, la copie de texte ou d'images, l'édition et/ou l'ajout d'annotations.
Depuis la version 0.91, xpdf comporte le code pour le déchiffrement. » (Xpdf: Decryption). Par ailleurs la distribution Debian GNU/Linux fournit un Xpdf permettant de passer outre ces restrictions (un correctif a aussi été proposé directement aux développeurs).
Par ailleurs, notons que la règle 21 du Référentiel Général d'Interopérabilité Volet Technique (à publier) de la DGME précise qu'il « est RECOMMANDÉ d'utiliser le format PDF/X (ISO 15930) pour l'échange de données numériques de pré-impression , mais rien n'est dit sur les restrictions éventuelles sur les fichiers PDF, notamment sur l'impression.
Les PDF avec des restrictions rencontrés sur le site du ministère de l'écologie sont-ils la règle ou l'exception ? Pour avoir une mesure approchée de la chose, j'ai analysé de nombreux domaines et sous-domaines web gouvernementaux (127 domaines gouv.fr, elysee.fr et service-public.fr) :
Nombre d'occurences de PDF selon Google (aux "environ" prêts) 50500 equipement.gouv.fr 46100 ecologie.gouv.fr 35700 agriculture.gouv.fr 31100 sante.gouv.fr 26400 minefi.gouv.fr 15200 drire.gouv.fr 14200 culture.gouv.fr 14000 journal-officiel.gouv.fr 11600 elysee.fr 9590 defense.gouv.fr 7590 industrie.gouv.fr 6940 interieur.gouv.fr 6020 diplomatie.gouv.fr 5880 legifrance.gouv.fr 5230 travail.gouv.fr 4980 environnement.gouv.fr 4160 ville.gouv.fr 3930 reunion.pref.gouv.fr 3710 education.gouv.fr 3390 archivesnationales.culture.gouv.fr 3170 ssi.gouv.fr 2660 impots.gouv.fr 1880 justice.gouv.fr 1810 bretagne.pref.gouv.fr 1700 urbanisme.equipement.gouv.fr 1690 auvergne.pref.gouv.fr 1500 recherche.gouv.fr 1220 pme.gouv.fr 1220 aquitaine.pref.gouv.fr 868 premar-atlantique.gouv.fr 784 oncfs.gouv.fr 715 mer.equipement.gouv.fr 709 archivesdefrance.culture.gouv.fr 533 yvelines.pref.gouv.fr 530 vendee.pref.gouv.fr 497 ogm.gouv.fr 471 telecom.gouv.fr 447 premier-ministre.gouv.fr 444 nievre.pref.gouv.fr 440 vaucluse.pref.gouv.fr 439 securiteroutiere.gouv.fr 439 modernisation.gouv.fr 438 loire-atlantique.pref.gouv.fr 350 pays-de-la-loire.pref.gouv.fr 350 corse.sante.gouv.fr 343 var.pref.gouv.fr 342 landes.pref.gouv.fr 333 ddm.gouv.fr 317 femmes-egalite.gouv.fr 315 premar-mediterranee.gouv.fr 310 civs.gouv.fr 291 marne.equipement.gouv.fr 289 pactepourlarecherche.gouv.fr 277 gironde.pref.gouv.fr 270 famille.gouv.fr 270 banqoutils.education.gouv.fr 256 cedef.minefi.gouv.fr 244 franche-comte.culture.gouv.fr 243 charente-maritime.pref.gouv.fr 239 herault.equipement.gouv.fr 216 ifop.agriculture.gouv.fr 211 ille-et-vilaine.pref.gouv.fr 210 outre-mer.gouv.fr 206 anlci.gouv.fr 194 service-public.fr 194 finistere.pref.gouv.fr 194 cae.gouv.fr 192 servicesalapersonne.gouv.fr 166 douane.minefi.gouv.fr 162 rhone-alpes.culture.gouv.fr 161 educart.culture.gouv.fr 154 guadeloupe.ecologie.gouv.fr 154 alsace.environnement.gouv.fr 147 technologie.gouv.fr 136 oned.gouv.fr 135 effet-de-serre.gouv.fr 131 auvergne.culture.gouv.fr 100 sportsdenature.gouv.fr 92 cotes-darmor.pref.gouv.fr 87 acofa.gouv.fr 83 poitou-charentes.pref.gouv.fr 81 pays-de-la-loire.culture.gouv.fr 78 languedoc-roussillon.culture.gouv.fr 70 grippeaviaire.gouv.fr 65 dusa.gouv.fr 61 ddsv55.gouv.fr 57 observatoire-parite.gouv.fr 54 cerc.gouv.fr 53 marinerecrute.gouv.fr 49 dmdts.culture.gouv.fr 49 conseilconsommation.minefi.gouv.fr 47 internet.gouv.fr 44 ofpra.gouv.fr 42 marine.defense.gouv.fr 41 europe.gouv.fr 40 pyrenees-atlantiques.pref.gouv.fr 38 auxerre.culture.gouv.fr 37 guadeloupe.environnement.gouv.fr 34 adae.gouv.fr 33 retraites.gouv.fr 24 limousin.culture.gouv.fr 22 savoie.equipement.gouv.fr 21 ppp.minefi.gouv.fr 19 santesolidarites.gouv.fr 19 cncp.gouv.fr 18 tabac.gouv.fr 17 droitdepret.culture.gouv.fr 15 dmf.culture.gouv.fr 14 admifrance.gouv.fr 12 santesport.gouv.fr 11 marches-publics.gouv.fr 8 haute-vienne.equipement.gouv.fr 8 ccpr.gouv.fr 7 cca.gouv.fr 5 aveyron.minefi.gouv.fr 4 cnfptlv.gouv.fr 3 maia31.gouv.fr 2 allo119.gouv.fr 1 sggou.gouv.fr 1 premar-manche.gouv.fr 1 citep.gouv.fr 1 afet.education.gouv.fr 0 webservices.minefi.gouv.fr 0 territoire.gouv.fr 0 haut-debit.gouv.fr 0 emploidesseniors.gouv.fr 0 droitsdesjeunes.gouv.fr 0 cooperation.gouv.fr 0 changement-adresse.gouv.fr
Sachant que Google fournit seulement les 1000 premiers documents pour une requête sur un domaine donné, que je suis passé par des sous-domaines lorsque j'en ai trouvés pour essayer de passer outre (parfois même pour un sous-domaine il y a plus de 1000 documents) et qu'il faut retirer les documents trouvés jugés similaires par le moteur de recherche, j'ai obtenu une liste de 72663 adresses de fichiers PDF, via 351 domaines et sous-domaines.
Lors du téléchargement de ces fichiers, certains documents ne sont pas ou plus accessibles, d'autres sont identiques au final (65 supprimés seulement), etc., j'ai donc obtenu au final 68272 fichiers PDF, soit environ 28 gigaoctets de données.
L'ensemble de ces fichiers est ensuite passé au logiciel libre pdfinfo (version 3.0) :
commençons par regarder les erreurs remontées
Soit 2204 erreurs réelles dans 1329 fichiers (dont 17 fichiers non utilisables apparemment).
63045 Encrypted: no 66 Encrypted: yes (print:no copy:no change:no addNotes:no) 4 Encrypted: yes (print:no copy:yes change:no addNotes:no) 4 Encrypted: yes (print:no copy:yes change:yes addNotes:yes) 1583 Encrypted: yes (print:yes copy:no change:no addNotes:no) 80 Encrypted: yes (print:yes copy:no change:no addNotes:yes) 8 Encrypted: yes (print:yes copy:no change:yes addNotes:no) 5 Encrypted: yes (print:yes copy:no change:yes addNotes:yes) 1641 Encrypted: yes (print:yes copy:yes change:no addNotes:no) 1440 Encrypted: yes (print:yes copy:yes change:no addNotes:yes) 8 Encrypted: yes (print:yes copy:yes change:yes addNotes:no) 371 Encrypted: yes (print:yes copy:yes change:yes addNotes:yes)
59374 Tagged: no 8881 Tagged: yes 30370 Optimized: no 37885 Optimized: yes 45 PDF version: 1.0 122 PDF version: 1.1 12038 PDF version: 1.2 28454 PDF version: 1.3 21613 PDF version: 1.4 5175 PDF version: 1.5 793 PDF version: 1.6 15 PDF version: 1.7
Il y a donc 8% de fichiers verrouillés dans notre collection (impression, copie, modification et/ou annotation). Mais qui verrouille ?
1659 equipement.gouv.fr 966 elysee.fr 646 agriculture.gouv.fr 242 ecologie.gouv.fr 187 pref.gouv.fr 158 minefi.gouv.fr 132 civs.gouv.fr 122 drire.gouv.fr 107 outre-mer.gouv.fr 95 ogm.gouv.fr 82 culture.gouv.fr 57 diplomatie.gouv.fr 53 environnement.gouv.fr 52 sante.gouv.fr 40 recherche.gouv.fr 40 justice.gouv.fr 31 famille.gouv.fr 31 defense.gouv.fr 26 ssi.gouv.fr 20 interieur.gouv.fr 17 pactepourlarecherche.gouv.fr 12 telecom.gouv.fr 12 modernisation.gouv.fr 11 travail.gouv.fr 9 femmes-egalite.gouv.fr 6 technologie.gouv.fr 6 industrie.gouv.fr 4 effet-de-serre.gouv.fr 3 oned.gouv.fr 2 securiteroutiere.gouv.fr 2 retraites.gouv.fr 2 pme.gouv.fr 2 ccpr.gouv.fr 1 servicesalapersonne.gouv.fr 1 marinerecrute.gouv.fr 1 internet.gouv.fr 1 dusa.gouv.fr 1 ddm.gouv.fr
26 ecologie.gouv.fr 15 environnement.gouv.fr 13 equipement.gouv.fr 6 agriculture.gouv.fr sante.gouv.fr 2 diplomatie.gouv.fr ogm.gouv.fr 1 culture.gouv.fr effet-de-serre.gouv.fr outre-mer.gouv.fr ssi.gouv.fr
526 agriculture.gouv.fr 383 equipement.gouv.fr 132 civs.gouv.fr 100 ecologie.gouv.fr 91 pref.gouv.fr 87 drire.gouv.fr 85 ogm.gouv.fr 40 environnement.gouv.fr recherche.gouv.fr 30 culture.gouv.fr 24 famille.gouv.fr 23 diplomatie.gouv.fr justice.gouv.fr 20 minefi.gouv.fr sante.gouv.fr 19 interieur.gouv.fr 17 pactepourlarecherche.gouv.fr 11 modernisation.gouv.fr ssi.gouv.fr telecom.gouv.fr 9 travail.gouv.fr 8 defense.gouv.fr 6 femmes-egalite.gouv.fr technologie.gouv.fr 4 effet-de-serre.gouv.fr industrie.gouv.fr 2 ccpr.gouv.fr oned.gouv.fr pme.gouv.fr retraites.gouv.fr 1 ddm.gouv.fr dusa.gouv.fr internet.gouv.fr outre-mer.gouv.fr
1651 equipement.gouv.fr 966 elysee.fr 646 agriculture.gouv.fr 242 ecologie.gouv.fr 183 pref.gouv.fr 158 minefi.gouv.fr 132 civs.gouv.fr 121 drire.gouv.fr 107 outre-mer.gouv.fr 95 ogm.gouv.fr 79 culture.gouv.fr 57 diplomatie.gouv.fr 53 environnement.gouv.fr 47 sante.gouv.fr 40 recherche.gouv.fr 36 justice.gouv.fr 31 defense.gouv.fr famille.gouv.fr 26 ssi.gouv.fr 20 interieur.gouv.fr 17 pactepourlarecherche.gouv.fr 12 modernisation.gouv.fr telecom.gouv.fr 11 travail.gouv.fr 9 femmes-egalite.gouv.fr 6 industrie.gouv.fr technologie.gouv.fr 4 effet-de-serre.gouv.fr 3 oned.gouv.fr 2 ccpr.gouv.fr pme.gouv.fr retraites.gouv.fr securiteroutiere.gouv.fr 1 ddm.gouv.fr dusa.gouv.fr internet.gouv.fr marinerecrute.gouv.fr servicesalapersonne.gouv.fr
1308 equipement.gouv.fr 643 agriculture.gouv.fr 215 ecologie.gouv.fr 153 pref.gouv.fr 132 civs.gouv.fr 111 minefi.gouv.fr 105 outre-mer.gouv.fr 95 ogm.gouv.fr 89 drire.gouv.fr 72 culture.gouv.fr 57 diplomatie.gouv.fr 53 environnement.gouv.fr 41 sante.gouv.fr 35 justice.gouv.fr 31 defense.gouv.fr 30 famille.gouv.fr 24 ssi.gouv.fr 23 recherche.gouv.fr 20 interieur.gouv.fr 12 modernisation.gouv.fr 10 pactepourlarecherche.gouv.fr 9 travail.gouv.fr 8 telecom.gouv.fr 7 femmes-egalite.gouv.fr 6 technologie.gouv.fr 4 effet-de-serre.gouv.fr industrie.gouv.fr 3 oned.gouv.fr 2 ccpr.gouv.fr pme.gouv.fr retraites.gouv.fr 1 dusa.gouv.fr internet.gouv.fr marinerecrute.gouv.fr securiteroutiere.gouv.fr
La reproduction exacte et la distribution intégrale de cet article est permise sur n'importe quel support d'archivage, pourvu que cette notice soit préservée.
Pour me contacter ou avoir des informations, envoyez-moi un message à bsibaud@april.org.