Accueil

Les travers du format MS Word

Ou pourquoi il serait bien d'éviter d'utiliser des fichiers au format MS Word pour les diffusions de documents.

Un format fermé, propriétaire, aux spécifications inconnues

Le format de fichier Word est un format fermé, propriétaire, aux spécifications inconnues (il existe néanmoins des logiciels libres (OpenOffice, Kword, Abiword, antiword, catdoc, etc) qui peuvent lire ce format, mais au prix de la rétro-ingénierie et d'une compatibilité forcément imparfaite).

Un format qui piège les utilisateurs

Ce format piège les utilisateurs : du fait que Microsoft change le format de fichier Word lors des changements de version, ses utilisateurs sont prisonniers d'un cercle vicieux qui les contraint à acheter chaque mise à jour, qu'ils désirent changer ou non. Ils pourront même s'apercevoir, dans quelques années, que les documents Word qu'ils rédigent aujourd'hui ne pourront plus être lus avec la version de Word qu'ils utiliseront alors. (cf http://www.fsf.org/philosophy/no-word-attachments.fr.html).

Un format inadapté aux transferts

Ce format n'est pas adapté aux transferts, sur les réseaux notamment (exemple réel : sur des cas réels on a constaté un facteur 20 entre le contenu textuel d'un document et la place occupée par le fichier Word. Et pensez que quand vous envoyez un tel document par l'Internet, personne sauf Microsoft ne sait complètement quelles informations sont réellement extraites de votre ordinateur sans votre consentement).

Un format inadapté aux échanges

Ce format n'est pas adapté aux échanges : la mise en page dépend de la machine sur laquelle on le regarde. Ainsi un document qui tient sur une page sur une machine avec une version de MS Word peut en prendre deux sur une machine avec une autre version. Les marges dépendent des imprimantes installées sur la machine, etc. Il faut que le correspondant ait la même version pour être sûr qu'il va pouvoir ne serait-ce que l'ouvrir. Bref c'est une erreur de croire que ce que l'auteur voit sur sa machine est ce que le destinataire aura sur la sienne.

Un format qui pose des problèmes de sécurité

Ce format pose des problèmes de sécurité : il peut véhiculer des virus/macros (voir la longue liste chez un éditeur d'antivirus par exemple).

Un format qui pose des problèmes de confidentialité

ce format pose des problèmes de confidentialité : « Un document Microsoft Word peut fournir divers types de renseignements. Il contient notamment des informations sur son auteur. Il comprend, par défaut, son nom, celui de son entreprise, les dates et heures de la création et des dernières sauvegardes du fichier ainsi que le temps passé à l'éditer. Il peut aussi révéler le nom de la machine sur laquelle il a été créé, une partie de l'arborescence du disque dur de l'auteur, voire des informations sur la topologie du réseau interne son entreprise ainsi que le Global Unique Identifier (GUID, identifiant unique attribué lors de l'enregistrement du système). Surtout, il permet de récupérer les modifications effectuées. ».

Exemple 1 : un article morons.org « Alcatel Fucks Up Bigtime révèle qui suite à une faille de sécurité, Alcatel a révélé des informations involontairement dans son communiqué de presse en .doc (avril 2001).

Exemple 2 : un cas de « collusion découverte entre la Business Software Alliance (BSA) et la Commission européenne sur un projet de directive sur les brevets logiciels. Le projet de directive issu de la Commission a en fait été rédigé par la BSA, comme le montre les informations du fichier .doc (février 2002).

Exemple 3 : un article de computerbytesman.com « Microsoft Word bytes Tony Blair in the butt » détaille l'affaire du dossier sur l'Iraq du premier ministre britannique Tony Blair, qui s'est révélé être un plagiat des travaux d'un chercheur états-unien, grâce à l'analyse du .doc (juin 2003).

Exemple 4 : un ministre danois trahi par les informations contenus dans un fichier Word (février 2004).

Exemple 5 : SCO Group lance des poursuites contre DaimlerChrysler et AutoZone, mais les révisions dans un fichier Word révèle que Bank of America a été visé (mars 2004).

Exemple 6 : une dépêche Slashdot « Microsoft PR: Looking Under The Hood » et un article SiliconValley « Word flaw a window into Microsoft » relatent l'analyse faite avec l'outil libre wxWare sur les .doc publiés sur le site de Microsoft, qui révèlent diverses informations, grâce à la conservation des modifications dans les fichiers (mars 2004).

Exemple 7 : une dépêche Slashdot « Documents Reveal US Incompetence with Word, Iraq » évoque la divulgation involontaire d'informations par les États-Unis concernant leur guerre en Irak, en raison des informations de suivi dans un fichier .doc (mars 2007).

Un format qui pose des problèmes de vie privée

Ce format peut contenir des « word bugs », des liens cachés qui «  peuvent ainsi révéler le moment où le fichier a été consulté, le lieu d'où cette consultation a été effectuée ainsi que diverses données concernant l'identité et l'environnement du lecteur et de sa connexion réseau, toutes informations utiles à un assaillant potentiel », comme le souligne un article de Transfert.net.

Solutions proposées

Solutions proposées : envois au format texte brut, PDF (la mise en page est identique partout), format OpenDocument, HTML, etc. Tous ces formats sont documentés et connus, et des solutions libres et/ou gratuites existent pour les lire, quelle que soit la plateforme matérielle et logicielle choisie (graticiel Acrobat Reader, logiciels libres evince, kpdf ou xpdf pour le PDF par exemple).

Le format HTML

Le HTML (« Hypertext Markup Language ») est un format ouvert défini par le consortium W3C. Il est utilisé pour écrire les pages web.

Le format OpenDocument

Le format OpenDocument est un format ouvert défini par le consortium OASIS, normalisé ISO26300:2006 .

Le format RTF

Le format RTF (« Rich Text Format ») a été créé par Microsoft (version 1.0 en 1989), avec des spécifications publiques. Jusque là rien à dire. Sauf que depuis MS Word produit des documents RTF non conformes aux spécifications, et donc illisibles ou posant problèmes avec d'autres logiciels compatibles RTF. Du coup le rendu n'est pas le même sous tous les logiciels.

Le format PDF

Le format PDF (« Portable Document Format »), créé par Adobe, normalisé ISO 32000-1:2008, a l'avantage de s'afficher partout identiquement. Il est aussi très répandu, et devient le format de référence pour la diffusion de documents (au niveau des instances européennes, ou des publications scientifiques par exemple). N'importe qui peut consulter les deux ou trois cents pages de spécifications du format, et donc de nombreux logiciels sont capables de le lire.

Remarque 1 : le Ministère de la Justice états-unien a publié un rapport au format PDF sur la diversité raciale et la parité dans son personnel, en censurant certaines parties. Mais la censure était faite en laissant les parties censurées et en les masquant à l'affichage, ce qui a permis de publier une version non censurée, qui au contraire mettait même en valeur les parties que le Ministère voulait garder confidentielles (octobre 2003). Et le ministère de la justice a renouvelé son erreur en 2006 en divulgant involontairement des informations dans une affaire de stéroïdes dans le milieu du baseball, et en 2008 en laissant fuiter dans un PDF mal censuré le fait que le FBI a mis sur écoute ses propres citoyens.

Remarque 2 : en mai 2005, dans l'affaire de la libération mouvementée de la journaliste italienne Giulana Sgrena, otage en Irak, dont la voiture a été prise sous le feu « ami » des troupes américaines faisant un mort et une blessée, l'armée américaine a fourni aux Italiens la version PDF mal censurée d'un document MS Word, dévoilant les noms des soldats ayant ouvert le feu, plus toutes les métainformations sur les auteurs du document...

Remarque 3 : en février 2009, le tribunal de San Jose, en Californie, dévoile des chiffres financiers que Facebook voulait garder secrets, via un PDF contenant les infos, uniquement masquées en écrivant en blanc sur blanc, au lieu d'être supprimées.

Remarque 4 : le format PDF permet d'interdire le copier/coller ou l'impression, ce qui peut être en contradiction avec la législation locale. Voir la discussion autour du logiciel libre de lecture des PDF Xpdf et la partie sur les dispositifs de contrôle de l'usage (DRM) dans cet historique de la sécurité dans les PDF (en anglais).

Note sur les formats ouverts

« On entend par standard ouvert tout protocole de communication, d'interconnexion ou d'échange et tout format de données interopérable et dont les spécifications techniques sont publiques et sans restriction d'accès ni de mise en œuvre. » (loi sur la confiance dans l'économie numérique, titre 1er, chapitre 1er, article 4)

Accueil

XHTML 1.0 valide CSS valide


Dernière mise à jour : 2010/04/11

La reproduction exacte et la distribution intégrale de cet article est permise sur n'importe quel support d'archivage, pourvu que cette notice soit préservée.

Pour me contacter ou avoir des informations, envoyez-moi un message à bsibaud@april.org.