Accueil

(article initialement mis en ligne en janvier 2011)

L'article « L’interprétation des graphiques produits par Ngram Viewer » m'a donné envie de faire quelques essais avec cet outil. Je suis d'ailleurs intéressé par tout autre outil permettant de voir l'évolution des termes dans la littérature, la presse, etc.

« Ngram Viewer est un nouvel outil mis en ligne par Google le 16 décembre dernier. Il permet de visualiser sous forme de graphiques les fréquences d'apparition de suites de mots dans les livres numérisés depuis 2003 sur Google Books. »

Le blog de Jean Véronis précise qu'il s'agit du « plus gros corpus linguistique de tous les temps : 500 milliards de mots (…) 4% des livres jamais publiés sur Terre ».

Sommaire

N.b.: les termes d'utilisation indiquent comment créditer les auteurs pour les articles académiques. Ce n'est pas le cas ici, mais néanmoins autant les citer en remerciement
Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, William Brockman, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, and Erez Lieberman Aiden*. Quantitative Analysis of Culture Using Millions of Digitized Books. Science (Published online ahead of print: 12/16/2010)

Mots absents

Les mots auxquels j'ai pensé et qui n'y figurent pas (limites temporelles, pas assez de livres numérisés, trop polysémiques) :

Lois et accords sur l'immatériel

Dans le corpus français, accords ADPIC, TRIPS (traduction anglaise de ADPIC), loi LOPSI, DMCA (ACTA est un mot courant en français).

TRIPS, ADPIC, LOPSI, DMCA, corpus fr

Dans le corpus anglais, DMCA (ADPIC et EUCD ont trop de significations en anglais).

DMCA, corpus en

Logiciel libre

Dans le corpus français, open source et logiciel libre.

open source, logiciel libre, corpus fr

Dans le corpus anglais, open source et free software (FLOSS est un mot commun en anglais).

Open source, free software, corpus en

Dans le corpus français, GNU, Linux, Debian, Ubuntu, Mozilla, Fedora (attention nom commun).

GNU, Debian, Ubuntu, Mozilla, Fedora, corpus fr

Linux, Firefox, corpus fr

Dans le corpus anglais, GNU, Linux, Debian, Ubuntu, Mozilla, Firefox, OpenOffice (LibreOffice n'est pas encore visible).

GNU, Linux, Debian, Ubuntu, Mozilla, Firefox, OpenOffice, corpus en

Interopérabilité et format ouvert montent rapidement dans le corpus français. Même chose pour interoperability et open standard dans le corpus anglais.

Logiciel propriétaire est bien plus fréquent que logiciel privateur jusque là.

Vote électronique (ou electronic voting) est de plus en plus fréquent, mais pas encore vente liée, informatique déloyale/de confiance ou neutralité du net.

Net neutrality et software patents sont de plus en plus fréquents, mais pas encore bundled sale ou treacherous/trusted computing. Digital rights management (DRM) semble s'infléchir.

DRM, corpus en

Dans le corpus français, contenu libre (définition floue), licence libre (définition variable).

contenu libre, licence libre, corpus fr

Dans le corpus anglais, creative commons décolle en 1990, tandis que commons s'évapore depuis 1800.

On peut aussi noter l'apparition récente du terme trompeur fourre-tout de « propriété intellectuelle » dans le corpus anglais.

copyright, intellectual property, corpus en

Dans le corpus français, comparaison des termes droit d'auteur, propriété intellectuelle et copyright.

droit d'auteur, propriété intellectuelle, copyright, corpus fr

droit d'auteur, propriété intellectuelle, copyright, corpus fr

Autres

Dans le corpus français, instruction publique, éducation nationale ou éducation populaire.

instruction publique, éducation nationale, éducation populaire, corpus fr

instruction publique, éducation nationale, éducation populaire, corpus fr, depuis 1940

Dans le corpus français, bien commun, bien public.

bien commun, bien public, corpus fr

Dans le corpus français, partage de la connaissance, partage du savoir.

partage du savoir, partage de la connaissance, corpus fr

Et pour finir, l'image affichée quand le site rencontre un souci.
Google Books trouble

XHTML 1.0 valide CSS valide


Dernière mise à jour : 2012/09/08

Pour me contacter ou avoir des informations, envoyez-moi un message à bsibaud@april.org.