Le Web de Babel

Publié le 14 novembre 2025 par Κύων

« Chacun des murs de chaque hexagone porte cinq étagères ; chaque étagère comprend trente-deux livres, tous de même format ; chaque livre a quatre cent dix pages ; chaque page, quarante lignes, et chaque ligne, environ quatre-vingts caractères noirs. Il y a aussi des lettres sur le dos de chaque livre ; ces lettres n’indiquent ni ne préfigurent ce que diront les pages : incohérence qui, je le sais, a parfois paru mystérieuse  »

— Jorge Luis Borges, La Bibliothèque de Babel, 1941.

Dans sa nouvelle La Bibliothèque de Babel, Borges imagine un narrateur errant dans une bibliothèque immense, contenant tous les livres de 410 pages qu’il est possibles d’écrire à partir d’un alphabet de 25 caractères (22 lettres, l’espace, la virgule et le point). Chaque page fait 40 lignes et chaque ligne 80 caractères en moyenne.

On peut donc facilement calculer que chaque ouvrage contient donc une combinaison unique de 1 312 000 caractères puisés dans cet alphabet. Ce qui nous fait donc un peu plus de 1,956·10^{1 834 098} livres.

La fascination du narrateur vient du fait que cette bibliothèque contient, parmi des millions d’années-lumières de lignes inintelligibles, tous les textes déjà ou jamais écrits, ou à minima leur transcription, leur traduction et leur chiffrement fidèle dans le jeu de caractères autorisés. Compris le présent article, l’Éneide, les codes de lancement des armes nucléaires russes, l’histoire de France racontée par Histony, l’histoire de France racontée par Philippe de Villiers, et même des analyses politiques d’une qualité et d’une perspicacité dont seul le Figaro a le secret. Quant aux textes trop longs pour tenir dans les 410 pages d’un volume, ils seront simplement disponibles en plusieurs tomes. La bibliothèque possède aussi des résumés de grande qualité de tous ces ouvrages. Ainsi que d’autres de très mauvaise.

D’une certaine manière, si l’on fait l’hypothèse — discutable, je l’admets — que toute information peut être transcrite sous forme de texte sans perte, alors la Bibliothèque de Babel contient l’ensemble du savoir de l’humanité. Compris la théorie du tout et les descriptions détaillées des expériences qui permettrons de la valider.

Le seul problème est que cette information est noyée dans une pluie de caractères aléatoires. À titre d’exemple, il semble qu’il existe en 2025 environ 97 380 212 livres avec une immatriculation ISBN^[1]. Faisons l’hypothèse — discutable, je l’admets — que l’ensemble de ces livres contient de l’information. Notre ratio signal/bruit est alors de l’ordre 10^{-1 834 088} %, ce qui est, finalement, pas très éloigné de zéro.

Mais en fait il est bien plus bas que ça. Je n’ai compté ici que les livres qui tiennent en un seul tome. Mais puisqu’il est possible de combiner les différents ouvrages pour obtenir n’importe quel texte de longueur arbitraire, le nombre réel de combinaisons de caractères est bel et bien infini, contrairement au nombre de livres. En fait il est même possible de diminuer drastiquement la taille de la bibliothèque : il suffit de limiter les ouvrages à 205 pages, n’importe quel ouvrage de 410 pages étant de toute manière obtenable (obtensible ?) en combinant les deux volumes de 205 pages correspondants. D’ailleurs nous pourrions répéter cette opération autant de fois que nécessaire jusqu’à ne garder que des volumes d’une seule page, ce qui limiterai le nombre de volumes à 2.559·10^4 474 livres, ce qui est déjà beaucoup plus raisonnable. Il est même possible de continuer à réduire la taille de notre bibliothèque en réduisant le nombre de lignes par page et le nombre de caractères par ligne. En ne gardant qu’une ligne par page et une lettre par ligne, notre mystérieuse bibliothèque se retrouverait condensée à 25 livres. Ça en jette beaucoup moins tout d’un coup.

Ce qu’il est important de comprendre ici, c’est qu’à aucun moment nous n’avons modifié la quantité d’information contenue dans notre bibliothèque. Les ouvrages originaux ont simplement été divisés en plusieurs tomes. Ce que démontre notre raisonnement, c’est que la Bibliothèque de Babel ne contient pas la moindre information. Dire que la Bibliothèque contient tous les textes passés et à venir est une tautologie strictement équivalente à dire qu’un alphabet permet d’écrire n’importe quel texte l’utilisant.

Il ne suffit donc pas qu’il soit possible de trouver un sens à un texte pour que ce texte puisse transmettre une information. À l’extrême, il existe probablement un algorithme et une clé de chiffrement pour lesquelles la Bible est le texte chiffré de Dieu et l’État de Bakounine. Il est pourtant manifeste qu’interpréter la Bible en ce sens serait complètement anachronique. L’interprétation consiste non pas à attribuer un sens à un texte, mais à tenter de restituer au mieux le sens original d’un texte. Le sens doit préexister au texte. Pour qu’un texte soit vecteur d’information, il faut non-seulement qu’il ait été écrit avec une intention, mais que cette intention soit restituable par l’interprétation avec le minimum de déformation.

La conséquence est que pour restituer de l’information, tout corpus de texte nécessite un travail chronophage de tri, d’analyse et de vérification. La quantité de travail étant fonction croissante de la quantité de texte et le temps disponible pour la lecture et l’interprétation étant limité, il en résulte que l’augmentation de la quantité de texte peut finalement réduire la quantité d’information réellement accessible.

À contrario, extraire des données pertinentes d’un fouillis de variations aléatoires l’augmente. Même si la donnée est déjà présente, comme c’est le cas dans notre fumeuse bibliothèque, c’est seulement lorsqu’elle a été isolée de tout ce qui est faux ou asémantique que l’information est créée.

Là où je veux en venir, c’est qu’il ne faut pas confondre la création de la donnée avec la création de l’information. Créer de nouvelles données peut améliorer le ratio signal/bruit (et donc créer de l’information) lorsque ces données sont pertinentes, ou au contraire le diminuer (et donc réduire la quantité d’information accessible). D’autre part il est possible de créer de l’information sans créer de donnée. Cela peut paraitre plus surprenant, mais c’est par exemple ce que fait la science quand elle valide ou invalide certaine croyance populaire.

Cet extrait illustre d’ailleurs parfaitement ce phénomène :

« L’utilisation de citron pour la prévention ou le soin du scorbut est bien antérieur à Lind. D’ailleurs il n’a jamais prétendu le contraire. Les marins connaissaient bien l’efficacité de certaines plantes, riches en vitamine C et de citron quand enfin ils pouvaient toucher terre et en consommer pour guérir du scorbut. 150 avant les travaux de Lind, certains capitaines comme Lancaster ou Woodall recommandaient d’ailleurs aux marins de consommer ces produits afin de prévenir la maladie.

Mais, mais… Attention ! Attention, parce que la phrase « les marins connaissaient depuis longtemps… » cache un piège. Les marins, à l’époque, connaissaient également depuis longtemps l’efficacité sur le scorbut de la bière — on retrouve une idée commune avec John Snow — du moue de malt, ou du bouillon de tortue ! Alors que vraiment… ces trucs-là… non, ça marche pas. Et c’est justement ce qui est intéressant avec ce qu’à fait James Lind : C’est qu’il a enfin permis de pouvoir séparer les traitements qui ne fonctionnent pas des traitements qui fonctionnent vraiment, en fournissant un outil relativement simple et élégant pour détecter les bons traitements. En ayant bien en tête qu’au fond, un essai clinique ne permet pas vraiment d’innover, de trouver des nouveaux traitements. Pour ça il faut toujours des idées, peut-être d’ailleurs se pencher dans la physiopathologie. Mais en tout cas pour servir de couperet, savoir si un traitement fonctionne ou pas : essai clinique. Citron/Bouillon de tortue. Choisissez !  »

— Risque Alpha, Ep 4 : James Lind - L’essai clinique

Ceci étant dit, je vous laisse vous faire votre opinion sur la politique actuelle consistant à pousser les scientifiques à publier à la chaîne pour obtenir des financements^[2]. Mais ce n’est pas notre sujet.

J’attire aussi votre attention sur le fait que nombre d’entités ne produisent que du bruit ou presque : religions, publicités, discours politiques, organismes de désinformation (dont usines à trolls), putaclics… Mais ce n’est pas notre sujet non plus. Enfin, pas tout de suite.

Venons-en au Web.

Le Web a été crée en 1989 au CERN pour faciliter les échanges d’informations entre scientifiques. J’appartiens à l’intersection d’un milieu geek et d’une génération qui a vu le Web se démocratiser et qui a eu l’occasion de se l’approprier avant de se le faire voler par les grands industriels. Quand j’ai vu tout ce qu’il était possible d’apprendre sur le Web, j’ai cru que le Web allait tuer la télévision, déjà devenue une poubelle intellectuelle à l’époque. Vingt ans plus tard, l’écrasante majorité des contenus disponible sur le Web est produite par la même industrie télévisuelle. J’ai cru que le Web serait un outil d’émancipation permettant à tout un chacun de s’éduquer et de s’exprimer quasi-gratuitement. Les classes populaires sont les plus asservies aux entreprises qui contrôlent le Web d’aujourd’hui. Nous ne sommes de toute manière qu’une poignée de geeks à posséder les connaissances de base en informatique et à comprendre les enjeux du numérique. J’ai cru qu’avec un peu de temps et de motivation, il serait possible d’acquérir n’importe quelle connaissance théorique grâce au Web. Je sais aujourd’hui que n’importe quelle bibliothèque universitaire est mieux équipée pour ça.

En effet, outre le fait que le format papier est plus propice à la lecture de documents longs et complexes, les bibliothèques universitaires possèdent un ratio signal/bruit extrêmement élevé. Celui du Web est non seulement très très bas, mais surtout ne cesse de baisser depuis que je l’utilise. Malgré tout un tas de sites passionnants, une immense majorité du contenu que nous consultons est produit par des agences publicitaires, des journalistes tentant de monter une affaire en épingle, voire… des bots^[3].

Historiquement les moteurs de recherche ont été créés pour améliorer ce ratio signal/bruit. En n’affichant que quelques sites en rapport avec certains mots-clés, ils permettaient de filtrer les millions de sites web sans intérêt direct. Au prix cependant d’un contrôle quasi-total de l’information disponible par quelques entreprises de la Silicon Valley^[4]. L’objectif des SEO est globalement l’exact opposé : faire apparaitre le site dans les résultats de recherche même s’il n’a aucun rapport avec la recherche. L’arrivée des résultats sponsorisés a été le premier clou dans le cercueil des moteurs de recherche. Heureusement, le petit encadré « annonce » permet encore de signaler à l’utilisateur que le site en question n’a aucune pertinence vis-à-vis de sa requête. Bref, l’équivalent d’un coup de pieds dans le tas de poussière après avoir passé le balai.

L’arrivée des « réseaux sociaux » (en fait des plateformes publicitaires) a marqué une nouvelle étape dans la merdification du net. Ces sites sont tous conçus pour maximiser l’addiction du consommateur. C’est pourquoi ils sont tous basé sur un fonctionnement sédimentaire : le contenu est affiché quelques instants avant de tomber dans les abysses du Web et de se faire recouvrir par le flux infini des nouvelles publications. D’une part l’utilisateur croit manquer une partie du flux s’il ne se connecte pas régulièrement (en fait il en rate de toute manière la majeure partie). D’autre part il est certain de trouver un contenu en apparence neuf à chaque nouvelle connexion.

Digression sur les autres techniques de pêche

Parmi les autres techniques largement connues et documentées, on peut bien sûr citer l’infinite scrolling et les shoots de dopamine activés par les boutons de notifications. Une des caractéristiques les plus frappantes est la quasi-absence de liens externes. Les articles de journaux sont bien souvent simplement remplacés par des screenshots (obligeant par ailleurs à trouver la page soit même si on veut vérifier que le journal a bien écrit ce qui apparait sur l’image). Les vidéos sont intégrées à la page. Les seuls liens externes restant sont bien souvent les publicités. L’absence d’interopérabilité permet aussi de créer une pression sociale sur le public non inscrit qui, par exemple, ne pourra pas recevoir les actualités des associations qu’il voudrait suivre et peut avoir l’impression de se retrouver marginalisé.

Ce fonctionnement a rapidement confronté ces plateformes au même problème que la télévision : comment générer du nouveau contenu a un tel rythme, vingt-quatre heures sur vingt-quatre, sept jours sur sept, dimanches et jours fériés compris ?

La réponse a cependant été légèrement différente. Là où la télévision a vite compris qu’il fallait éviter de générer le contenu soit-même et qu’il valait mieux racheter du contenu déjà prêt, les réseaux sociaux ont vite compris qu’il fallait éviter de générer le contenu soit-même qu’il valait mieux laisser les consommateurs le faire gratuitement. Là où la télé pouvait se permettre de recycler, et d’autoriser les productions à investir un peu de temps dans des contenus qui pourrons être resservis pendant des années (coucou les bronzés), le contenu des réseaux sociaux, destiné à se retrouver enterré en quelques heures, ne permet aucun travail de fond. À ce rythme, les scandales politiques, les évènements culturels locaux ou les actualités internationales ne peuvent suffire à générer suffisamment de contenu pour alimenter un fil d’actualité en temps réel sans générer un océan de bruit, tout en ne permettant jamais de développer sur ces évènements. Les réseaux sociaux, c’est le web 0.5. Celui où on n'avait pas encore les moteurs de recherche, mais avec plusieurs millions de fois plus de contenu à trier et sans possibilité de retrouver un contenu déjà consulté. Les réseaux sociaux sont au web ce que le brouilleur est aux communications radios

La merdification des différents services internet a continué avec l’apparition des « apps » dont la seule finalité est d’éviter que l’utilisateur ne se rende sur le Web. De cette manière, impossible de bloquer les pubs, trackers et autres sources de bruit (enfin, c’est possible, mais il faut le faire au niveau du téléphone, et la plupart des OS de mobiles ne sont pas dans votre camp), impossible d’accéder à d’autres ressources que celles autorisées par l’appli. Les applis sont littéralement des « filtres passe-bruit ».

L’étape ultime est l’automatisation de la génération de bruit, rendue possible par l’avènement des modèles génératifs. Certes ces derniers excellent à extraire de l’information d’un signal bruité. Mais, d’une part bruiter un signal pour le débruiter ensuite ne me semble pas particulièrement plus pertinent que de passer un après-midi à creuser un trou dans un champ pour le reboucher ensuite. D’autre part la loi de Brandolini s’applique excessivement bien aux IA : il faut bien plus de temps pour lancer une requête permettant de résumer un article mal écrit que pour automatiser la génération de centaines d’articles par jour de pur baratin^[5]. L’arrivée de l’IA sur internet, c’est avant tout l’automatisation de l’astroturfing, du putaclic, des campagnes de harcèlement et des tentatives d’arnaque. Les auteurs de dystopies ont longtemps crut et croient encore que l’on peut détruire la culture par l’autodafé. Ce qui détruit la culture, c’est la submersion.

L’écrasante majorité du Web d’aujourd’hui ne sert littéralement à rien. Pages générées par des bots et visitées par des bots. Conversations éphémères archivées sur les serveurs d’une multinationale quelconque dont le prochain lecteur sera archéologue ou ne sera pas. En 2015, sur les deux-cents sites d’actualités les plus consultés aux mondes, plus de 40 % du poids des pages était dû au tracking publicitaire^[6]. Avec les conséquences évidentes en termes de temps de chargement, d’empreinte carbone, et de consommation de données. Il serait surprenant que ce chiffre ait baissé depuis.

Digression sur l’empreinte carbone

À noter que si des pisteurs doublent le poids de votre page web, son empreinte carbone, elle n’est pas doublée, mais multipliée par plusieurs ordres de grandeur : si la partie « utile » de votre page web se contente la plupart du temps de faire une requête dans une base de données, les données collectées, elles, ont vocation à être analysées par des algos d’apprentissage machine. Sur de telles quantités de données, ça demande de la puissance de calcul. Et pas qu’un peu.

Digression sur la consommation de données

Je me suis longtemps demandé comment mes proches pouvaient siffler leur forfait mobile de 200 Go en quelques semaines quand je ne dépasse jamais 50 Go/mois, téléchargements de blu-rays inclus. Maintenant je sais : ils ne bloquent pas les pubs.

La moitié du trafic internet provient de bots^[7]. 8,5 % des comptes Twitter actifs sont des bots^[8], avec des pics à 15 % en période électorale^[9]. Les abonnés, les likes et les commentaires élogieux sur Facebook s’achètent à quelques centimes l’unité. 20 % des sites affichant de la pub ne sont pas destinés à des humains, mais à des bots cliquant automatiquement sur les pubs pour arnaquer les annonceurs^[10]. Il n’existe pas, à ma connaissance, d’estimation de la quantité d’énergie dissipée ainsi en pure perte. Mais si je devais parier, je ne serais pas étonné qu’il soit théoriquement possible de diminuer d’un, voire plusieurs, ordres de grandeur la puissance de calcul mondiale sans préjudice pour l’utilisateur final.

J’ai cru à l’avènement d’un Web d’Alexandrie. Je le vois se transformer en un Web de Babel.

J’aurais pu conclure sur cet aphorisme. Mais à l’heure où les pigistes, les écrivains et les musiciens se font remplacer par modèles génératifs, je ne peux m’empêcher de vous laisser sur cet extrait de l’œuvre qui a inspiré Borges :

« Burkel donna une tape vigoureuse sur l'épaule de son ami.

“Je m'abonne immédiatement à cette bibliothèque universelle. Je disposerai ainsi de tous les prochains numéros de mon magazine, prêts à être imprimés. Plus besoin de me préoccuper des articles. C'est magnifique pour un éditeur : cela signifie exclure les auteurs de l'activité commerciale ! Et remplacer l'écrivain par une machine combinatoire, c'est le triomphe de la technique !”  »

— Kurd Lasswitz, La Bibliothèque universelle, 1904.

https://phiresky.github.io/isbn-visualization/? ↩
- Le monde des revues scientifiques au bord de l’asphyxie, Le Monde, juillet 2025 :
  https://www.lemonde.fr/sciences/article/2025/07/07/le-monde-des-revues-scientifiques-au-bord-de-l-asphyxie_66196601650684.html
- Comment les faussaires de Tenu.pro inondent les revues scientifiques, France24, septembre 2025 :
  https://www.france24.com/fr/sant%C3%A9/20250908-comment-les-faussaires-de-tenu-pro-inondent-les-revues-scientifiques
↩
- [Récap] Nous avons découvert des milliers de sites d’info générés par IA : tous nos articles, Next, mars 2025 :
  https://next.ink/173214/recap-nous-avons-decouvert-des-milliers-de-sites-dinfo-generes-par-ia-tous-nos-articles/
- La sagesse selon YouTube : plongée dans un océan de contenu généré par IA, Monsieur Phi, octobre 2025 :
  https://www.youtube.com/watch?v=rJE2qkP0Gk4
↩
Recherche : Google et Yahoo soupçonnés de favoriser leurs services, L’Express, janvier 2011 :
https://www.lexpress.fr/economie/high-tech/recherche-google-et-yahoo-soupconnes-de-favoriser-leurs-services_1479541.html ↩
Plus de 1 000 médias en français, générés par IA, polluent le web (et Google), Next, 6 février 2025 :
https://next.ink/153613/enquete-plus-de-1-000-medias-en-francais-generes-par-ia-polluent-le-web-et-google/

18% des médias et 33% des sites tech les plus recommandés par Google sont générés par IA, Next, 3 octobre 2025 :
https://next.ink/198619/18-des-medias-et-33-des-sites-tech-les-plus-recommandes-par-google-sont-generes-par-ia/ ↩
« Nous avons évalué notre approche et démontré une réduction de 67.5 % du nombre de cookies HTTP déposés durant la navigation sur les sites d’actualité du top 200 Alexa. Firefox ne téléchargeant pas et n’affichant pas le contenu venant des domaines de pistage, la protection contre le pistage permet de bénéficier d’une réduction médiane de 44 % du temps de chargement et de 39 % de la consommation de données sur les sites d’actualités du top 200 Alexa »

Tracking Protection in Firefox For Privacy and Performance, Georgios Kontaxis, Monica Chew, 10 mai 2015 :
https://www.ieee-security.org/TC/SPW2015/W2SP/papers/W2SP₂₀₁₅submission_32.pdf

Et il ne s’agit que des données bloquées par leur système. Si vous ajoutez une extensions type uBlock Origin (et si vous ne le faites pas vous devrier essayer), ce sera forcément plus.

Une autre étude, plus récente, mais moins sérieuse sur la méthodo :

Les publicités consomment la moitié des données mobiles, près de 48 % des données nécessaires pour charger une page web sont consacrées à des publicités, Développez.com, 8 janvier 2025 :
https://mobiles.developpez.com/actu/366519/Les-publicites-consomment-la-moitie-des-donnees-mobiles-pres-de-48-pourcent-des-donnees-necessaires-pour-charger-une-page-web-sont-consacrees-a-des-publicites-selon-Enders-Analysis/ ↩
Bots Now Make Up Nearly Half of All Internet Traffic Globally, Thales, 16 avril 2024 :
https://www.thalesgroup.com/en/news-centre/press-releases/bots-now-make-nearly-half-all-internet-traffic-globally ↩
BotPercent: Estimating Twitter Bot Populations from Groups to Crowds, Zhaoxuan Tan, Shangbin Feng, Melanie Sclar, Herun Wan, Minnan Luo, Yejin Choi, Yulia Tsvetkov, 1 février 2023 :
https://arxiv.org/pdf/2302.00381v1 ↩
Social bots distort the 2016 U.S. Presidential election online discussion, Alessandro Bessi, Emilio Ferrara, 7 novembre 2016 :
https://firstmonday.org/ojs/index.php/fm/article/view/7090/5653 ↩
One in five ad-serving websites is visited exclusively by fraud bots, The Verge, 24 mai 2017 :
https://www.theverge.com/2017/5/24/15681080/ad-fraud-websites-traffic-bots-white-ops-report ↩

Pseudonyme :
Adresse e-mail :
Commentaire :

Commentaires :