En bloquant les crawlers IA, Cloudflare crée un nouveau modèle économique pour les éditeurs

Cloudflare est le premier fournisseur d'infrastructure cloud à bloquer les robots d'indexation utilisés par les entreprises d'IA sur le site de ses clients. Les éditeurs peuvent désormais accorder des autorisations et demander une rémunération contre le scraping de leurs contenus. Cette démarche crée une nouvelle source de revenus pour les éditeurs tout en leur redonnant du pouvoir.

Depuis le 1^er juillet, toute entité créant un domaine avec Cloudflare doit déterminer sa politique en matière d’autorisation des robots d’indexation. Les propriétaires de sites web ont désormais la possibilité de décider à quel contenu un robot peut accéder et ce qu’il en fait (par exemple, s’il est utilisé à des fins d’entraînement d’une IA, d’inférence ou de recherche). Cloudflare est capable d’identifier les robots en fonction de leur signature cryptographique.

Au-delà de ce blocage, les éditeurs peuvent décider de monétiser l’accès à leur site pour ces robots. Cloudflare expérimente pour une poignée d’acteurs une fonction de « paiement par crawl » via la réponse HTTP 402 (qui indique que la requête ne peut pas être traitée avant que le client effectue un paiement). Le prix est négocié de manière privée entre l’éditeur et la société d’IA.

Les opérateurs de crawlers et les éditeurs doivent configurer les détails du paiement par crawl depuis leur compte Cloudflare (le montant qu’ils acceptent pour donner accès au contenu ou le montant qu’ils acceptent de payer pour y accéder). Cloudflare enregistre le nombre de fois qu’un crawler effectue une requête authentifiée avec intention de paiement (réponse HTTP 200 qui indique la réussite d’une requête). Cloudflare regroupe toutes les requêtes, facture le crawler et distribue les gains à l’éditeur. L’entreprise se positionne donc comme un intermédiaire entre le crawler et l’éditeur.

Stephanie Cohen, Directrice de la stratégie chez Cloudflare, explique qu’il s’agira d’un marché fermé. L’éditeur n’a pas à publier son prix, ni à fixer le même tarif pour chaque robot d’exploration. Au fil du temps, Cloudflare fournira plus de signaux aux entreprises d’IA concernant la fraîcheur du contenu, ce qui donnera une idée de la pertinence du site.

Toute la configuration se fait depuis le dashboard de Cloudflare. Le blocage des robots d’indexation est gratuit, mais si le propriétaire du site web veut contrôler les conditions d’accès avec plus de granularité, il devra souscrire à un abonnement spécifique.

Plus de 30 entités ont déjà montré leur intérêt pour la technologie de Cloudflare, dont The Associated Press, TIME, Reddit, The Atlantic, Sky News Group, Pinterest, ADWEEK ou encore IAB Tech Lab.

Dans la continuité du robots.txt

Les propriétaires de sites web avaient jusqu’ici la possibilité de créer un fichier « robots.txt », un protocole d’exclusion placé à la racine d’un site web qui détaille les ressources qui ne sont pas censées être indexées par les robots des moteurs de recherche. « Mais seuls 37% des 10.000 premiers domaines en possèdent un et les erreurs sont fréquentes, explique Stephanie Cohen. Et puis, il ne permet pas de créer un nouveau modèle commercial ».

« Contribuer à la construction d’un meilleur Internet »

Avec ce nouveau modèle, Cloudflare veut « contribuer à la construction d’un meilleur Internet », affirme Stephanie Cohen. Pour cela, le fournisseur cloud compte sur son poids sur le marché: plus de 20% des sites web dans le monde reposent sur sa technologie.

Depuis 2021 et le développement de l’intelligence artificielle générative, l’Internet tel que nous le connaissons, structuré autour de la recherche renvoyant vers des sites web, est en pleine mutation.

Les éditeurs et créateurs de contenu ont constaté une baisse du trafic provenant des moteurs de recherche. Les données de Cloudflare confirment qu’il est aujourd’hui dix fois plus difficile d’obtenir du trafic sur son site web provenant d’une recherche qu’il y a dix ans. Parallèlement, l’augmentation du volume de bots d’entraînement pour les IA a augmenté de 65% ces six derniers mois.

La plupart des LLM (modèles de langage) se sont bâtis sur le scraping illégal de tout Internet afin d’obtenir des données d’entraînement. Pour se protéger, certains éditeurs nouent des partenariats avec les entreprises d’IA ou les attaquent en justice. En France, Le Monde a choisi la première option, tandis que le New York Times a opté pour la deuxième option aux Etats-Unis.

L’objectif de Cloudflare est de redonner du pouvoir aux éditeurs en incitant les créateurs de contenu et les médias à continuer de publier du contenu original. Un rempart contre la « slopification » d’Internet (création en masse de contenu généré par IA qui alimente d’autres IA).

Une nouvelle opportunité pour les éditeurs

Cette nouveauté ne peut être que considérée comme une bonne nouvelle pour les éditeurs, puisqu’elle équilibre le rapport de force face aux nouveaux portails que sont les agents IA.

« Jusqu’à présent, les LLM ont ‘pillé’ les éditeurs, mais ils ne pourront plus le faire dans un avenir proche. Cela montre aussi à quel point les LLM sont dépendants des éditeurs. Ils synthétisent, mais il faut de la matière première et cette matière est chez nous. Cela redonne de la valeur au contenu créé par nos journalistes », se réjouit Paul Ripart, Directeur Commercial Programmatique et Data de Prisma Media Solutions.

Selon Chris Richmond, CEO du média Snopes.com, ce nouveau paradigme permet d’échapper à un Internet, qui, in fine, serait devenu payant: « Si la transition vers l’IA continue à éroder le trafic web, je crains que la plupart des éditeurs de contenu premium n’aient pas d’autre choix que d’adopter un modèle reposant uniquement sur l’abonnement. Il ne serait bon pour personne que l’ensemble d’Internet se retrouve derrière un accès payant. »

Chez Prisma Media, les solutions discutées dans les négociations avec les entreprises d’IA sont similaires à celles pour les droits voisins. Mais cette technologie devrait changer la donne. Le modèle d’échange devrait néanmoins rester en « pair à pair ».

Reste à construire « des voies et protocoles d’échange », estime Paul Ripart, « l’équivalent d’OpenRTB pour le programmatique, mais cette fois pour faire dialoguer les agents IA entre eux ».