Méthodologie · Hypothèses · Limites assumées

Comment fonctionne le simulateur, et où il s'arrête

Cette page documente le modèle qui sous-tend le simulateur de propagation virale, ses hypothèses simplificatrices, les sources scientifiques convoquées et les questions auxquelles il ne peut pas répondre. Pour un usage rigoureux par les chercheurs, journalistes et juristes qui auditent le projet.

Le modèle

Comment fonctionne la simulation

Décomposition technique en termes courants pour comprendre ce que le simulateur fait, étape par étape.

1232 agents géolocalisés en Île-de-France. Chaque agent représente 10 000 habitants (population INSEE 2024 = 12 320 355). Ils sont distribués dans les 8 départements selon la densité réelle (Paris dense, grande couronne aérée).

3 traits par agent :

Position politique sur un axe gauche-droite normalisé entre −1 et +1. Distribution bimodale en cas de polarisation forte.
Scepticisme entre 0 (crédule) et 1 (vérifie les sources). Tiré d'une distribution Beta calibrée sur le paramètre "scepticisme du public" choisi par l'utilisateur.
Activité numérique entre 0 (rare) et 1 (poste plusieurs fois par jour). Distribution Beta(2,5) — la plupart sont peu actifs, quelques-uns très actifs.

Réseau social : graphe scale-free — quelques agents très connectés, beaucoup peu. Construit avec deux forces : homophilie politique (tendance à suivre des positions proches) et proximité géographique (les liens tombent en e^−distance). En moyenne, chaque agent suit 6 contacts.

Décision à chaque pas : chaque agent exposé à un post évalue un appeal = alignement politique × véracité perçue. Multiplié par son activité numérique. Si un nombre aléatoire est inférieur, il partage. Sinon il ignore. Avec une faible probabilité, un sceptique exposé à du contenu vrai déclenche un fact-check (DEBUNKER).

Le simulateur propose trois moteurs de décision au choix : règles probabilistes locales (déterministes étant donné une graine), Lucie 7B auto-hébergée (LLM ouvert français) sur un échantillon de 1 à 123 agents, ou Claude Sonnet 4.6 / GPT-4.1-mini via API (mode non souverain explicite).

Limites assumées

Ce qu'on simplifie volontairement

Tout modèle simplifie. La question n'est pas s'il simplifie, mais s'il simplifie honnêtement. Voici nos coupes assumées.

Trois traits, c'est très peu. La sociologie en aurait identifié au moins huit pour caractériser un acteur dans un espace social : capital culturel (Bourdieu), génération, profession, capital social, religion, rapport aux institutions, géographie fine, rapport aux médias. Notre modèle réduit cette richesse à un triangle politique × scepticisme × activité.

La fonction appeal = alignement × véracité ignore le motivated reasoning. Kahan (2017) a montré qu'un partisan engagé peut partager un contenu douteux quand son identité est en jeu — précisément parce que c'est faux et que le partager signale l'appartenance. Notre formule sous-estime ce mécanisme central de la viralité partisane.

L'indépendance des décisions des contacts est une fiction. En réalité, voir 5 amis partager pousse plus à partager soi-même que de voir 1 ami le faire 5 fois (cascades, Granovetter 1978). Notre modèle traite l'exposition comme une variable continue lisse, alors qu'elle a des seuils. La spirale du silence de Noelle-Neumann (1974) — l'auto-censure quand on perçoit son opinion minoritaire — n'est pas modélisée.

La géographie IDF est lissée. Les 8 départements sont traités comme uniformes. Saint-Denis et Neuilly-sur-Seine se retrouvent dans la même densité statistique 92, alors que les pratiques numériques et les enjeux de désinformation y sont radicalement différents. Le simulateur n'est pas un outil de territorialisation fine.

Les algorithmes de recommandation ne sont pas modélisés. TikTok, Twitter, YouTube, Facebook ont chacun leurs spécificités d'amplification. Le simulateur agrège tout sous un "réseau social générique". Les biais propres à chaque plateforme — à savoir que TikTok amplifie autrement que Twitter — sont absents.

Sources scientifiques

Sur quoi on s'appuie

Travaux convoqués pour calibrer le modèle, et à qui le créditer dans toute analyse sérieuse de la simulation.

Sociologie · 1979

Bourdieu

La Distinction — pour rappeler que la position politique seule est un proxy faible. Le capital culturel, l'habitus, la trajectoire sociale comptent autant. Notre simplification à 3 traits est consciente.

Réseaux · 1998

Watts & Strogatz

Small-world networks. Modèle qui explique pourquoi un message peut traverser un réseau social en peu de pas malgré la grande taille. Fondement du graphe utilisé.

Nature 393, 440-442

Sociologie · 1973-78

Granovetter

The Strength of Weak Ties + Threshold Models of Collective Behavior. Les liens faibles diffusent l'information plus loin que les liens forts. Les seuils de mobilisation expliquent les cascades brusques.

Cognition · 2017

Kahan

Identity-Protective Cognition. Pourquoi notre formule appeal × véracité sous-estime le partage partisan : un militant partage parfois un contenu faux parce qu'il est faux, pour signaler son camp.

SSRN 2973067

Réseaux · 2018

Centola

How Behavior Spreads. Distinction entre contagion simple (un seul contact suffit, ex : info virale) et contagion complexe (plusieurs contacts indépendants nécessaires, ex : adoption d'un comportement). Notre simulateur est plus proche de la contagion simple.

Architecture · 2024

CAMEL-AI / OASIS

Framework multi-agents qui inspire l'architecture. Notre simulateur est une version minimale et géographique d'OASIS, avec un substrat social et une décomposition par scénario AI Act.

github.com/camel-ai/oasis

Démocratie · 2017

Allcott & Gentzkow

Social Media and Fake News in the 2016 Election. Calibre les ordres de grandeur empiriques de propagation des fake news : qui partage, à quelle vitesse, vers qui. Sert de baseline aux paramètres par défaut.

JEP 31(2) 211-236

Filtre · 2011

Pariser

The Filter Bubble. Justifie le paramètre d'homophilie : les agents tendent à suivre des positions politiques proches, créant des bulles épistémiques où les contre-messages pénètrent peu.

Capacités · Limites

Ce qu'il fait bien et ce qu'il ne sait pas faire

Distinction nette entre les usages pédagogiques pour lesquels le simulateur est conçu, et les usages opérationnels pour lesquels il ne l'est pas.

Ce que le simulateur fait bien

Démontre la non-linéarité de l'effet d'un contre-message selon le moment où il est diffusé. Un fact-check au pas 3 ≠ au pas 8.

Visualise la densité différentielle des liens en zone urbaine dense (Paris) vs grande couronne. La carte IDF n'est pas un décor.

Permet de comparer 3 moteurs de décision sur le même substrat — règles, Lucie ouverte, Sonnet API. Utile pour saisir la différence entre une décision déterministe et une décision LLM, et pour mesurer le compromis vitesse / souveraineté.

Rend les compromis explicites : polariser, hausser le scepticisme, alerter tôt — chacun a un effet visible et chiffré sur le réseau.

Ce qu'il ne sait pas faire

Prédire la propagation d'un cas réel. Ne pas l'utiliser pour estimer combien de personnes liront telle infox dans tel département. La granularité est trop large, le modèle trop simplifié.

Modéliser les bots ou comptes coordonnés au-delà du scénario "Bots" qui les schématise grossièrement comme une perturbation locale. Une opération d'influence réelle est plus fine.

Évaluer une campagne d'éducation aux médias dans la durée. Notre modèle est statique : le scepticisme et l'activité ne s'apprennent pas dans la simulation.

Tenir compte des algorithmes de recommandation propres aux plateformes. TikTok amplifie autrement que Twitter, qui amplifie autrement que YouTube.

Auditabilité

Comment vérifier ce qu'on dit

Cohérent avec le discours de souveraineté : le code et les modèles utilisés doivent pouvoir être audités sans demander la permission.

Le simulateur lui-même est un fichier HTML + JavaScript dans la page /h-ia-simulation.html. Le code est lisible directement (clic-droit → afficher la source). Pas de bundler obfusqué, pas de sourcemap manquante.

Le modèle Lucie 7B utilisé en mode souverain est pleinement ouvert au sens du Foundation Model Transparency Index 2025 (Stanford CRFM) : poids, données d'entraînement, code de pré-entraînement et points de contrôle intermédiaires sont publiés. Ce qui signifie qu'un chercheur peut vérifier avec quelles données Lucie a appris, contrairement à Mistral ou Llama qui livrent uniquement le modèle final.

Pour aller plus loin :

Modèle Lucie 7B Instruct v1.1 sur HuggingFace : OpenLLM-France/Lucie-7B-Instruct-v1.1
Papier Lucie : arXiv 2503.12294 (Gouvert, Hunter, Louradour et al., 2025)
Foundation Model Transparency Index 2025 : crfm.stanford.edu/fmti
Règlement européen sur l'IA (UE 2024/1689), articles 51 et 53, considérants 110-111 : EUR-Lex

Si vous identifiez une erreur, une approximation gênante ou une source manquante : écrivez à contact@h-ia.fr. Nous corrigeons publiquement.