Accueil

(article en cours d'écriture)

Analyse sur le contrôle d'usage dans les PDF gouvernementaux français

Pollution informationnelle au ministère de l'écologie ?

Le 20 février 2007, j'ai voulu convertir 8 documents du Ministère français de l'Écologie au format PDF, pour les transmettre en HTML à une personne qui m'en avait fait la demande (et qui utilisant un ordinateur avec des logiciels un peu anciens ne pouvait ouvrir lesdits fichiers PDF).

Là où ça devient amusant :

$ pdftohtml Note_aux_prefets_sols_pollues_08_02_07.pdf
Error: PDF version 1.6 -- xpdf supports version 1.4 (continuing anyway)
Error: Copying of text from this document is not allowed.

Le logiciel libre pdftohtml m'informe que la copie du texte de cette note aux préfets relatives aux sites et sols pollués ne serait pas autorisée. Pas techniquement autorisée car pour le reste, ce document est tout ce qu'il y a de public et d'officiel. D'ailleurs il est bien précisé dedans que Mme la ministre N. Olin « invite à faire une très large diffusion auprès de l'ensemble des acteurs locaux concernés de ce guide. » (ça tombe bien je veux le transmettre à une victime sur un site pollué) et la page web précise « L'ensemble des textes et des outils sont consultables sur le site ». Le site indique par ailleurs « A l'exception de l'iconographie, la reproduction (à but non lucratif) des pages de ce site est autorisée à la condition d'y mentionner la source. En revanche, le contenu de ce site ne peut être reproduit ou utilisé à des fins commerciales ou publicitaires. ». Bref une « mesure technique de protection » ou plutôt un dispositif de contrôle de l'usage veut m'interdire un usage légitime sur un document officiel minstériel public (qui plus est provenant d'un ministère qui devrait pourtant être sensible à la préservation des écosystèmes, fussent-ils informationnels).

$ man pdftohtml
(...)
       -nodrm override document DRM settings
(...)

L'outil pdftohtml dispose d'une option pour passer outre, baptisée très clairement -nodrm (un DRM est un dispositif de contrôle de l'usage).

$ pdftohtml -nodrm Note_aux_prefets_sols_pollues_08_02_07.pdf
Error: PDF version 1.6 -- xpdf supports version 1.4 (continuing anyway)
Document has copy-protection bit set.
Page-1
Page-2

Je venais donc d'effectuer un contournement de mesures techniques de protection pour pouvoir permettre la lecture de ce document.

Au passage, notons que ce ministère sait parfois se montrer plus ouvert : la page « Développement et gestion du site » mentionne notamment qu'il utilise « (entre autres) un ensemble de logiciels issus du monde "libre", dont en particulier :

Quelques rappels sur le format PDF

Les spécifications du PDF sont disponibles et utilisables (1236 pages). Comme le dit T. Stœhr sur Formats-ouverts.org « Certes Adobe est le seul concepteur du format PDF et aussi son propriétaire, mais il est ouvert et permet l'interopérabilité : outre ceux d'Adobe, le PDF est lu par de nombreux logiciels, et le PDF est créé par de nombreux autres logiciels que ceux d'Adobe (de LaTeX - comme pour le PDF d'Ouagadougou - à OpenOffice.org, en passant par divers programmes). »

« Le 10 octobre 2005 l'Organisation internationale de la normalisation (ISO) annonçait dans un communiqué de presse l'établissement de la norme ISO 19005 qui définit un "format de fichier des documents électroniques pour une conservation à long terme".

Le format utilisé est dénommé PDF/A, pour PDF Archive. Il est basé sur le format PDF (Portable Document Format) version 1.4 de la société Adobe. La norme a été élaborée par le Sous-comité SC 2, Applications de ISO/TC 171, Applications en gestion des documents.
 » (article Formats-ouverts.org sur ISO 19005-1:2005 PDF/A)

J. Barens d'Adobe a par ailleurs précisé lors de la seconde journée du forum e-government à Issy-les-Moulineaux en 2006 que le PDF est un « standard propriétaire, publié, libre de droits ».

On notera que l'entreprise Adobe qui en est à l'origine demande le respect des restrictions d'usage choisies par l'auteur pour son document (du type pas de copier/coller ou pas d'impression possible). Ainsi le document PDF Reference, version 1.7 indique page 122 [bel exemple de copier/coller d'un PDF, traduit par la suite] « Note : une fois que le document a été ouvert et déchiffré avec succès, l'application a accès à tous les contenus. Il n'y a rien d'inhérent au chiffrement PDF qui assurerait le respect des permissions indiquées dans le dictionnaire de chiffrement. C'est aux implémenteurs des applications PDF finales de respecter l'intention de l'auteur du document en restreignant les accès de l'utilisateur au document PDF chiffré suivant les permissions présentes dans le fichier.

Note : PDF 1.5 introduit un ensemble de permissions d'accès qui ne requièrent pas le chiffrement du document
 »

Le lecteur libre de PDF Xpdf n'applique pas ce genre de restrictions par exemple : « Si les fonctionnalités de sécurité sont activées par l'auteur d'un document PDF, le fichier sera chiffré. Ces fonctionnalités de sécurité permettent à l'auteur d'interdire l'impression, la copie de texte ou d'images, l'édition et/ou l'ajout d'annotations.
Depuis la version 0.91, xpdf comporte le code pour le déchiffrement.
 » (Xpdf: Decryption). Par ailleurs la distribution Debian GNU/Linux fournit un Xpdf permettant de passer outre ces restrictions (un correctif a aussi été proposé directement aux développeurs).

Par ailleurs, notons que la règle 21 du Référentiel Général d'Interopérabilité Volet Technique (à publier) de la DGME précise qu'il « est RECOMMANDÉ d'utiliser le format PDF/X (ISO 15930) pour l'échange de données numériques de pré-impression , mais rien n'est dit sur les restrictions éventuelles sur les fichiers PDF, notamment sur l'impression.

PDF gouvernementaux avec des restrictions, règle ou exception ?

Les PDF avec des restrictions rencontrés sur le site du ministère de l'écologie sont-ils la règle ou l'exception ? Pour avoir une mesure approchée de la chose, j'ai analysé de nombreux domaines et sous-domaines web gouvernementaux (127 domaines gouv.fr, elysee.fr et service-public.fr) :

Nombre d'occurences de PDF selon Google (aux "environ" prêts)

50500	equipement.gouv.fr
46100	ecologie.gouv.fr
35700	agriculture.gouv.fr
31100	sante.gouv.fr
26400	minefi.gouv.fr
15200	drire.gouv.fr
14200	culture.gouv.fr
14000	journal-officiel.gouv.fr
11600	elysee.fr
 9590	defense.gouv.fr
 7590	industrie.gouv.fr
 6940	interieur.gouv.fr
 6020	diplomatie.gouv.fr
 5880	legifrance.gouv.fr
 5230	travail.gouv.fr
 4980	environnement.gouv.fr
 4160	ville.gouv.fr
 3930	reunion.pref.gouv.fr
 3710	education.gouv.fr
 3390	archivesnationales.culture.gouv.fr
 3170	ssi.gouv.fr
 2660	impots.gouv.fr
 1880	justice.gouv.fr
 1810	bretagne.pref.gouv.fr
 1700	urbanisme.equipement.gouv.fr
 1690	auvergne.pref.gouv.fr
 1500	recherche.gouv.fr
 1220	pme.gouv.fr
 1220	aquitaine.pref.gouv.fr
  868	premar-atlantique.gouv.fr
  784	oncfs.gouv.fr
  715	mer.equipement.gouv.fr
  709	archivesdefrance.culture.gouv.fr
  533	yvelines.pref.gouv.fr
  530	vendee.pref.gouv.fr
  497	ogm.gouv.fr
  471	telecom.gouv.fr
  447	premier-ministre.gouv.fr
  444	nievre.pref.gouv.fr
  440	vaucluse.pref.gouv.fr
  439	securiteroutiere.gouv.fr
  439	modernisation.gouv.fr
  438	loire-atlantique.pref.gouv.fr
  350	pays-de-la-loire.pref.gouv.fr
  350	corse.sante.gouv.fr
  343	var.pref.gouv.fr
  342	landes.pref.gouv.fr
  333	ddm.gouv.fr
  317	femmes-egalite.gouv.fr
  315	premar-mediterranee.gouv.fr
  310	civs.gouv.fr
  291	marne.equipement.gouv.fr
  289	pactepourlarecherche.gouv.fr
  277	gironde.pref.gouv.fr
  270	famille.gouv.fr
  270	banqoutils.education.gouv.fr
  256	cedef.minefi.gouv.fr
  244	franche-comte.culture.gouv.fr
  243	charente-maritime.pref.gouv.fr
  239	herault.equipement.gouv.fr
  216	ifop.agriculture.gouv.fr
  211	ille-et-vilaine.pref.gouv.fr
  210	outre-mer.gouv.fr
  206	anlci.gouv.fr
  194	service-public.fr
  194	finistere.pref.gouv.fr
  194	cae.gouv.fr
  192	servicesalapersonne.gouv.fr
  166	douane.minefi.gouv.fr
  162	rhone-alpes.culture.gouv.fr
  161	educart.culture.gouv.fr
  154	guadeloupe.ecologie.gouv.fr
  154	alsace.environnement.gouv.fr
  147	technologie.gouv.fr
  136	oned.gouv.fr
  135	effet-de-serre.gouv.fr
  131	auvergne.culture.gouv.fr
  100	sportsdenature.gouv.fr
   92	cotes-darmor.pref.gouv.fr
   87	acofa.gouv.fr
   83	poitou-charentes.pref.gouv.fr
   81	pays-de-la-loire.culture.gouv.fr
   78	languedoc-roussillon.culture.gouv.fr
   70	grippeaviaire.gouv.fr
   65	dusa.gouv.fr
   61	ddsv55.gouv.fr
   57	observatoire-parite.gouv.fr
   54	cerc.gouv.fr
   53	marinerecrute.gouv.fr
   49	dmdts.culture.gouv.fr
   49	conseilconsommation.minefi.gouv.fr
   47	internet.gouv.fr
   44	ofpra.gouv.fr
   42	marine.defense.gouv.fr
   41	europe.gouv.fr
   40	pyrenees-atlantiques.pref.gouv.fr
   38	auxerre.culture.gouv.fr
   37	guadeloupe.environnement.gouv.fr
   34	adae.gouv.fr
   33	retraites.gouv.fr
   24	limousin.culture.gouv.fr
   22	savoie.equipement.gouv.fr
   21	ppp.minefi.gouv.fr
   19	santesolidarites.gouv.fr
   19	cncp.gouv.fr
   18	tabac.gouv.fr
   17	droitdepret.culture.gouv.fr
   15	dmf.culture.gouv.fr
   14	admifrance.gouv.fr
   12	santesport.gouv.fr
   11	marches-publics.gouv.fr
    8	haute-vienne.equipement.gouv.fr
    8	ccpr.gouv.fr
    7	cca.gouv.fr
    5	aveyron.minefi.gouv.fr
    4	cnfptlv.gouv.fr
    3	maia31.gouv.fr
    2	allo119.gouv.fr
    1	sggou.gouv.fr
    1	premar-manche.gouv.fr
    1	citep.gouv.fr
    1	afet.education.gouv.fr
    0	webservices.minefi.gouv.fr
    0	territoire.gouv.fr
    0	haut-debit.gouv.fr
    0	emploidesseniors.gouv.fr
    0	droitsdesjeunes.gouv.fr
    0	cooperation.gouv.fr
    0	changement-adresse.gouv.fr

Sachant que Google fournit seulement les 1000 premiers documents pour une requête sur un domaine donné, que je suis passé par des sous-domaines lorsque j'en ai trouvés pour essayer de passer outre (parfois même pour un sous-domaine il y a plus de 1000 documents) et qu'il faut retirer les documents trouvés jugés similaires par le moteur de recherche, j'ai obtenu une liste de 72663 adresses de fichiers PDF, via 351 domaines et sous-domaines.

Lors du téléchargement de ces fichiers, certains documents ne sont pas ou plus accessibles, d'autres sont identiques au final (65 supprimés seulement), etc., j'ai donc obtenu au final 68272 fichiers PDF, soit environ 28 gigaoctets de données.

L'ensemble de ces fichiers est ensuite passé au logiciel libre pdfinfo (version 3.0) :

Mais qui verrouille et quoi ?

Il y a donc 8% de fichiers verrouillés dans notre collection (impression, copie, modification et/ou annotation). Mais qui verrouille ?

**TODO** http://www.foolabs.com/xpdf/cracking.html Liens entre Producer et restrictions pdffonts / pdfopt /xpdf TABLE 3.20 User access permissions BIT POSITION MEANING 1-2 Reserved; must be 0. 3 (Revision 2) Print the document. (Revision 3 or greater) Print the document (possibly not at the high- est quality level, depending on whether bit 12 is also set). 4 Modify the contents of the document by operations other than those controlled by bits 6, 9, and 11. 5 (Revision 2) Copy or otherwise extract text and graphics from the document, including extracting text and graphics (in support of ac- cessibility to users with disabilities or for other purposes). (Revision 3 or greater) Copy or otherwise extract text and graphics from the document by operations other than that controlled by bit 10. 6 Add or modify text annotations, fill in interactive form fields, and, if bit 4 is also set, create or modify interactive form fields (including signature fields). 7-8 Reserved; must be 1. 9 (Revision 3 or greater) Fill in existing interactive form fields (includ- ing signature fields), even if bit 6 is clear. 10 (Revision 3 or greater) Extract text and graphics (in support of ac- cessibility to users with disabilities or for other purposes). 11 (Revision 3 or greater) Assemble the document (insert, rotate, or de- lete pages and create bookmarks or thumbnail images), even if bit 4 is clear. 12 (Revision 3 or greater) Print the document to a representation from which a faithful digital copy of the PDF content could be generated. When this bit is clear (and bit 3 is set), printing is limited to a low- level representation of the appearance, possibly of degraded quality. (See implementation note 25 in Appendix H.) 13-32 (Revision 3 or greater) Reserved; must be 1.

Accueil

Dernière mise à jour : 2007/03/21

La reproduction exacte et la distribution intégrale de cet article est permise sur n'importe quel support d'archivage, pourvu que cette notice soit préservée.

Pour me contacter ou avoir des informations, envoyez-moi un message à bsibaud@april.org.