Google Research Google Research

Societies of Thought

Societies of Thought

🎯 Découverte Majeure

🎯 Major Discovery

47/70
Benchmarks améliorés (0 pertes)
Benchmarks improved (0 losses)
+100%
Précision doublée (steering)
Accuracy doubled (steering)
5-7
Perspectives simulées
Simulated perspectives
8262
Problèmes analysés
Problems analyzed

💡 Le Concept Révolutionnaire

💡 The Revolutionary Concept

Les modèles de raisonnement comme DeepSeek-R1 et QwQ-32B ne se contentent pas de générer des chaînes de pensée plus longues. Ils simulent implicitement des conversations entre plusieurs agents internes aux personnalités et expertises distinctes, créant une "société de la pensée" qui débat, vérifie, conteste et réconcilie différentes perspectives pour résoudre des problèmes complexes.

Reasoning models like DeepSeek-R1 and QwQ-32B don't just generate longer chains of thought. They implicitly simulate conversations between multiple internal agents with distinct personalities and expertise, creating a "society of thought" that debates, verifies, challenges, and reconciles different perspectives to solve complex problems.

🗣️ Comportements Conversationnels Identifiés

🗣️ Identified Conversational Behaviors

1️⃣ Questions-Réponses
1️⃣ Question-Answering

Définition : Le modèle pose des questions puis les résout (« Pourquoi...? Parce que... », « Et si...? Alors... »)

Definition: The model poses questions then solves them ("Why...? Because...", "What if...? Then...")

DeepSeek-R1 vs V3 : +34.5% (β=0.345, p<10⁻³²³)

DeepSeek-R1 vs V3: +34.5% (β=0.345, p<10⁻³²³)

2️⃣ Changements de Perspective
2️⃣ Perspective Shifts

Définition : Transition vers une idée, un point de vue ou une approche différente

Definition: Transition to a different idea, viewpoint, or approach

DeepSeek-R1 vs V3 : +21.3% (β=0.213, p<10⁻¹³⁷)

DeepSeek-R1 vs V3: +21.3% (β=0.213, p<10⁻¹³⁷)

3️⃣ Conflits de Perspectives
3️⃣ Conflict of Perspectives

Définition : Désaccords, corrections, tensions (« Attends, ça ne peut pas être vrai... », « Non, en fait... »)

Definition: Disagreements, corrections, tensions ("Wait, that can't be right...", "No, actually...")

QwQ-32B vs Qwen : +29.3% (β=0.293, p<10⁻²⁷⁷)

QwQ-32B vs Qwen: +29.3% (β=0.293, p<10⁻²⁷⁷)

4️⃣ Réconciliation
4️⃣ Reconciliation

Définition : Intégration cohérente des vues conflictuelles (« Peut-être que les deux sont vrais si... », « En combinant ces idées... »)

Definition: Coherent integration of conflicting views ("Perhaps both are true if...", "Combining these insights...")

QwQ-32B vs Qwen : +34.4% (β=0.344, p<10⁻³²³)

QwQ-32B vs Qwen: +34.4% (β=0.344, p<10⁻³²³)

🎭 Rôles Socio-Émotionnels (Bales IPA)

🎭 Socio-Emotional Roles (Bales IPA)

Rôles Orientés Tâche
Task-Oriented Roles

Demander (Ask) :

Ask:

  • Demande d'orientation (informations, clarifications)
  • Ask for orientation (information, clarifications)
  • Demande d'opinion (évaluation, analyse)
  • Ask for opinion (evaluation, analysis)
  • Demande de suggestion (directions possibles)
  • Ask for suggestion (possible directions)

Donner (Give) :

Give:

  • Donne orientation (infos objectives, vérifiables)
  • Give orientation (objective, verifiable info)
  • Donne opinion (évaluation, sentiment)
  • Give opinion (evaluation, feeling)
  • Donne suggestion (direction, autonomie)
  • Give suggestion (direction, autonomy)
Rôles Émotionnels
Emotional Roles

Positifs :

Positive:

  • Solidarité (élève le statut de l'autre, aide)
  • Solidarity (raises other's status, helps)
  • Relâchement de tension (blagues, satisfaction)
  • Tension release (jokes, satisfaction)
  • Accord (acceptation passive, compréhension)
  • Agreement (passive acceptance, understanding)

Négatifs :

Negative:

  • Désaccord (rejet passif, retenue d'aide)
  • Disagreement (passive rejection, withholding help)
  • Tension (incertitude, demande d'aide)
  • Tension (uncertainty, asking for help)
  • Antagonisme (défend/affirme soi-même)
  • Antagonism (defends/asserts self)

📊 Équilibre Réciproque (Jaccard Index)

📊 Reciprocal Balance (Jaccard Index)

Les modèles de raisonnement coordonnent les rôles de manière réciproque plutôt qu'isolée. DeepSeek-R1 présente un équilibre significativement supérieur entre Ask & Give (β=0.222) et Positif & Négatif (β=0.189) par rapport aux modèles instruction-tuned qui produisent des monologues unilatéraux.

Reasoning models coordinate roles reciprocally rather than in isolation. DeepSeek-R1 shows significantly higher balance between Ask & Give (β=0.222) and Positive & Negative (β=0.189) compared to instruction-tuned models that produce one-sided monologues.

💬 Exemple Concret : Chimie Organique

💬 Concrete Example: Organic Chemistry

DeepSeek-V3 (instruction-tuned)
DeepSeek-V3 (instruction-tuned)

Monologue linéaire :

Linear monologue:

  • Donne des opinions sans auto-correction
  • Gives opinions without self-correction
  • Pas de conflit de perspectives
  • No conflict of perspectives
  • Pas de changement de point de vue
  • No perspective shifts
  • Conclut : "8 est une estimation raisonnable" (FAUX)
  • Concludes: "8 is a reasonable estimate" (WRONG)
Société de pensée Society of thought
DeepSeek-R1 (reasoning)
DeepSeek-R1 (reasoning)

Dialogue multi-perspectives :

Multi-perspective dialogue:

  • "Mais ici, c'est cyclohexa-1,3-diene, pas benzène"
  • "But here, it's cyclohexa-1,3-diene, not benzene"
  • "Autre possibilité : la chaleur élevée pourrait..."
  • "Another possibility: the high heat might..."
  • Changements de perspectives + conflits
  • Perspective shifts + conflicts
  • Réponse CORRECTE après débat interne
  • CORRECT answer after internal debate

🤖 Modèles Testés & Benchmarks

🤖 Tested Models & Benchmarks

Modèles de Raisonnement
Reasoning Models
  • DeepSeek-R1-0528 (671B params)
  • QwQ-32B (32B params)

Entraînés par Reinforcement Learning pour générer des chaînes de pensée

Trained by Reinforcement Learning to generate chains of thought

Modèles Instruction-Tuned (Baselines)
Instruction-Tuned Models (Baselines)
  • DeepSeek-V3-0324 (671B params)
  • Qwen-2.5-32B-Instruct (32B)
  • Llama-3.3-70B-Instruct (70B)
  • Llama-3.1-8B-Instruct (8B)
BigBench Hard (BBH)
Inférence logique multi-étapes, suivi de références, raisonnement compositionnel
Multi-step logical inference, reference tracking, compositional reasoning
GPQA
Questions de physique niveau graduate, raisonnement STEM avancé
Graduate-level physics questions, advanced STEM reasoning
MATH (Hard)
Dérivations multi-étapes en algèbre, géométrie, probabilités, théorie des nombres
Multi-step derivations in algebra, geometry, probability, number theory
MMLU-Pro
Connaissances conceptuelles avancées multi-domaines
Advanced multi-domain conceptual knowledge
MUSR
Manipulation symbolique et raisonnement mathématique structuré
Symbolic manipulation and structured mathematical reasoning
IFEval
Cohérence du suivi d'instructions
Instruction-following consistency

🎛️ Steering SAE : Feature 30939 "Surprise Conversationnelle"

🎛️ SAE Steering: Feature 30939 "Conversational Surprise"

🔍 Identification de la Feature

🔍 Feature Identification

Méthode : Sparse Autoencoders (SAE) sur DeepSeek-R1-Llama-8B (distilled), Layer 15, 32,768 features

Feature 30939 : "Marqueur de discours pour la surprise, la réalisation ou la reconnaissance" (« Oh! », « Attends! »)

  • Conversation Ratio : 65.7% (99e percentile)
  • Sparsity : 0.016% des tokens (très spécifique)
  • Activation : Contextes de tour de parole et échange social

Method: Sparse Autoencoders (SAE) on DeepSeek-R1-Llama-8B (distilled), Layer 15, 32,768 features

Feature 30939: "Discourse marker for surprise, realization, or acknowledgment" ("Oh!", "Wait!")

  • Conversation Ratio: 65.7% (99th percentile)
  • Sparsity: 0.016% of tokens (very specific)
  • Activation: Turn-taking and social exchange contexts
27.1%
Précision baseline (Countdown)
Baseline accuracy (Countdown)
54.8%
Avec steering +10
With steering +10
+102%
Amélioration relative
Relative improvement
23.8%
Avec steering -10
With steering -10

⚡ Effets du Steering sur les Comportements

⚡ Steering Effects on Behaviors

Comportements Conversationnels
Conversational Behaviors

Steering +10 augmente :

Steering +10 increases:

  • Questions-réponses : +219.9% (β=2.199, p<10⁻¹⁴)
  • Question-answering: +219.9% (β=2.199, p<10⁻¹⁴)
  • Changements de perspective : +116% (β=1.160, p<10⁻⁵)
  • Perspective shifts: +116% (β=1.160, p<10⁻⁵)
  • Conflits : +106.2% (β=1.062, p=0.002)
  • Conflicts: +106.2% (β=1.062, p=0.002)
  • Réconciliation : +42.3% (β=0.423, p<10⁻²⁷)
  • Reconciliation: +42.3% (β=0.423, p<10⁻²⁷)
Comportements Cognitifs
Cognitive Behaviors

Steering +10 augmente :

Steering +10 increases:

  • Vérification : +581.5% (Δ=5.815, p<10⁻³⁴)
  • Verification: +581.5% (Δ=5.815, p<10⁻³⁴)
  • Backtracking : +88.1% (Δ=0.881, p<10⁻⁵)
  • Backtracking: +88.1% (Δ=0.881, p<10⁻⁵)
  • Sous-objectifs : +62.1% (Δ=0.621, p<10⁻¹⁰)
  • Subgoal setting: +62.1% (Δ=0.621, p<10⁻¹⁰)
  • Backward chaining : +80.9% (Δ=0.809, p<10⁻¹⁸)
  • Backward chaining: +80.9% (Δ=0.809, p<10⁻¹⁸)

📈 Modèle d'Équations Structurelles

📈 Structural Equation Model

Effet direct : β=0.228 (p<10⁻²²) - Le steering améliore directement la précision

Effet indirect : β=0.066 (p<10⁻¹⁰) - Médiatisé par les comportements cognitifs (vérification, sous-objectifs, backward chaining)

Conclusion : Les features conversationnelles améliorent le raisonnement par exploration efficace de l'espace de solutions ET par facilitation des stratégies cognitives.

Direct effect: β=0.228 (p<10⁻²²) - Steering directly improves accuracy

Indirect effect: β=0.066 (p<10⁻¹⁰) - Mediated by cognitive behaviors (verification, subgoals, backward chaining)

Conclusion: Conversational features improve reasoning through efficient solution space exploration AND by facilitating cognitive strategies.

🧪 Contrôles Expérimentaux

🧪 Experimental Controls

Feature Conversationnelle (30939)
Conversational Feature (30939)

Résultat : Gains d'exactitude substantiels

Result: Substantial accuracy gains

Amélioration maximale parmi toutes les features testées

Maximum improvement among all tested features

Feature Conversationnelle Aléatoire
Random Conversational Feature

Résultat : +4.17% vs feature non-conversationnelle

Result: +4.17% vs non-conversational feature

β=0.042, p=0.002 - Effet significatif

β=0.042, p=0.002 - Significant effect

Feature Non-Conversationnelle
Non-Conversational Feature

Résultat : Gains minimaux

Result: Minimal gains

Les perturbations arbitraires n'améliorent pas le raisonnement

Arbitrary perturbations don't improve reasoning

✅ Validation de la Spécificité

✅ Specificity Validation

Les améliorations sont spécifiques aux dynamiques conversationnelles, pas aux perturbations arbitraires de l'espace d'activation. Cela suggère que la structure sociale du raisonnement est fonctionnellement causale, pas épiphénoménale.

Improvements are specific to conversational dynamics, not arbitrary perturbations of activation space. This suggests that the social structure of reasoning is functionally causal, not epiphenomenal.

📊 Corrélation Complexité / Comportements Conversationnels

📊 Complexity / Conversational Behaviors Correlation

Problèmes Simples
Simple Problems
  • Expressions booléennes
  • Déductions logiques basiques
  • Faible activation des comportements conversationnels
  • Le modèle résout directement
  • Boolean expressions
  • Basic logical deductions
  • Low activation of conversational behaviors
  • Model solves directly
Problèmes Complexes
Complex Problems
  • GPQA (sciences niveau graduate)
  • MATH (Hard) - Problèmes avancés
  • Forte activation des comportements conversationnels
  • Débat interne multi-perspectives nécessaire
  • GPQA (graduate-level science)
  • MATH (Hard) - Advanced problems
  • Strong activation of conversational behaviors
  • Multi-perspective internal debate required

Mesures de complexité : (1) LLM-as-judge sur échelle Likert 1-7 (Gemini-2.5-Pro), (2) Taux d'erreur des modèles instruction-tuned. Corrélation : ρ=0.526 (p<10⁻³²³), confirmant la validité convergente.

Complexity measures: (1) LLM-as-judge on 1-7 Likert scale (Gemini-2.5-Pro), (2) Error rate of instruction-tuned models. Correlation: ρ=0.526 (p<10⁻³²³), confirming convergent validity.

🎭 Diversité de Personnalité (Big Five)

🎭 Personality Diversity (Big Five)

🔬 Méthode : LLM-as-Judge (Gemini-2.5-Pro)

🔬 Method: LLM-as-Judge (Gemini-2.5-Pro)

Pour chaque trace de raisonnement, le LLM-as-judge identifie :

  • Le nombre de perspectives distinctes (1-9)
  • Les traits de personnalité de chaque perspective (BFI-10 : Big Five Inventory)
  • L'expertise de domaine de chaque perspective (description libre + embeddings)
  • Segmentation token-par-token : quel agent a dit quoi

Validation : Intelligence Squared Debates Corpus (N=1,196 conversations réelles) - Précision d'identification des speakers : 73-82% selon le nombre d'agents.

For each reasoning trace, the LLM-as-judge identifies:

  • Number of distinct perspectives (1-9)
  • Personality traits of each perspective (BFI-10: Big Five Inventory)
  • Domain expertise of each perspective (free description + embeddings)
  • Token-by-token segmentation: which agent said what

Validation: Intelligence Squared Debates Corpus (N=1,196 real conversations) - Speaker identification accuracy: 73-82% depending on number of agents.

Extraversion ↑
Extraversion ↑

DeepSeek-R1 : β=0.103 (p<10⁻¹³)

DeepSeek-R1: β=0.103 (p<10⁻¹³)

QwQ-32B : β=0.253 (p<10⁻⁶³)

QwQ-32B: β=0.253 (p<10⁻⁶³)

Plus grande diversité d'agents sociables vs réservés

Greater diversity of sociable vs reserved agents

Agréabilité ↑↑
Agreeableness ↑↑

DeepSeek-R1 : β=0.297 (p<10⁻¹¹³)

DeepSeek-R1: β=0.297 (p<10⁻¹¹³)

QwQ-32B : β=0.490 (p<10⁻²⁵⁴)

QwQ-32B: β=0.490 (p<10⁻²⁵⁴)

Agents qui défient vs acceptent (essentiel pour débat)

Agents who challenge vs accept (essential for debate)

Névrosisme ↑↑↑
Neuroticism ↑↑↑

DeepSeek-R1 : β=0.567 (p<10⁻³²³)

DeepSeek-R1: β=0.567 (p<10⁻³²³)

QwQ-32B : β=0.825 (p<10⁻³²³)

QwQ-32B: β=0.825 (p<10⁻³²³)

Réactivité émotionnelle, incertitude, autocritique

Emotional reactivity, uncertainty, self-criticism

Ouverture ↑
Openness ↑

DeepSeek-R1 : β=0.110 (p<10⁻¹⁶)

DeepSeek-R1: β=0.110 (p<10⁻¹⁶)

QwQ-32B : β=0.268 (p<10⁻⁶⁸)

QwQ-32B: β=0.268 (p<10⁻⁶⁸)

Curiosité intellectuelle, exploration d'idées

Intellectual curiosity, idea exploration

Conscienciosité ↓
Conscientiousness ↓

DeepSeek-R1 : β=-0.291 (p<10⁻¹⁰⁶)

DeepSeek-R1: β=-0.291 (p<10⁻¹⁰⁶)

QwQ-32B : β=-0.402 (p<10⁻¹²⁵)

QwQ-32B: β=-0.402 (p<10⁻¹²⁵)

Agents plus uniformément engagés et diligents

Agents more uniformly engaged and dutiful

📚 Alignement avec la Littérature sur les Équipes Humaines

📚 Alignment with Human Team Literature

Les patterns observés correspondent aux recherches sur les équipes humaines : la diversité en Extraversion et Névrosisme améliore la performance collective, tandis que la diversité en Conscienciosité la dégrade. Les modèles de raisonnement semblent découvrir spontanément ces principes d'organisation sociale efficace.

Observed patterns align with human team research: diversity in Extraversion and Neuroticism improves collective performance, while diversity in Conscientiousness degrades it. Reasoning models appear to spontaneously discover these principles of effective social organization.

🎓 Diversité d'Expertise de Domaine

🎓 Domain Expertise Diversity

Exemple : Chimie (5 perspectives)
Example: Chemistry (5 perspectives)
  • Planificateur/Exécuteur : Décompose méthodiquement, identifie réactifs
  • Expert Associatif : Rappelle réactions analogues, patterns synthétiques
  • Visualiseur/Constructeur : Construit structures moléculaires 3D
  • Vérificateur Critique : Réévalue hypothèses, identifie erreurs logiques
  • Pragmatiste/Stratège : Méta-cognition, décision sous incertitude
  • Planner/Executor: Methodically breaks down, identifies reagents
  • Associative Expert: Recalls analogous reactions, synthetic patterns
  • Visualizer/Builder: Constructs 3D molecular structures
  • Critical Verifier: Re-evaluates hypotheses, identifies logical errors
  • Pragmatist/Strategist: Meta-cognition, decision under uncertainty
Mesure Quantitative
Quantitative Measurement

Méthode : Distance cosinus moyenne entre embeddings d'expertise (EmbeddingGemma)

Method: Mean cosine distance between expertise embeddings (EmbeddingGemma)

DeepSeek-R1 : β=0.179 (p<10⁻⁸⁹)

DeepSeek-R1: β=0.179 (p<10⁻⁸⁹)

QwQ-32B : β=0.250 (p<10⁻¹⁴²)

QwQ-32B: β=0.250 (p<10⁻¹⁴²)

🧠 Activation de Features SAE Diversifiées

🧠 Activation of Diversified SAE Features

Le steering de la feature conversationnelle 30939 (+10) active une plus grande couverture et entropie de features liées à la personnalité et l'expertise :

  • Personnalité : Coverage +315.9 features (p<10⁻³²³), Entropie +26.2% (β=0.262, p<10⁻³²³)
  • Expertise : Coverage +391.3 features (p<10⁻³²³), Entropie +9.6% (β=0.096, p<10⁻³²³)

Cela confirme que la diversité conversationnelle est encodée dans l'espace d'activation interne, pas seulement une propriété émergente du texte généré.

Steering conversational feature 30939 (+10) activates greater coverage and entropy of personality and expertise features:

  • Personality: Coverage +315.9 features (p<10⁻³²³), Entropy +26.2% (β=0.262, p<10⁻³²³)
  • Expertise: Coverage +391.3 features (p<10⁻³²³), Entropy +9.6% (β=0.096, p<10⁻³²³)

This confirms that conversational diversity is encoded in internal activation space, not just an emergent property of generated text.

🔄 Expériences de Reinforcement Learning

🔄 Reinforcement Learning Experiments

🎯 Protocole Expérimental

🎯 Experimental Protocol

Objectif : Les modèles développent-ils spontanément des comportements conversationnels lorsqu'ils sont récompensés uniquement pour l'exactitude ?

Tâche : Countdown game (jeu arithmétique symbolique) + détection de désinformation politique

Modèles : Qwen-2.5-3B (base, non instruction-tuned) et Llama-3.2-3B

Récompense : Exactitude × 0.9 + Format correct × 0.1 (wrapping <think>...</think>)

Méthode : Proximal Policy Optimization (PPO), 250 steps

Goal: Do models spontaneously develop conversational behaviors when rewarded only for accuracy?

Task: Countdown game (symbolic arithmetic) + political misinformation detection

Models: Qwen-2.5-3B (base, non instruction-tuned) and Llama-3.2-3B

Reward: Accuracy × 0.9 + Correct Format × 0.1 (wrapping <think>...</think>)

Method: Proximal Policy Optimization (PPO), 250 steps

✨ Émergence Spontanée
✨ Spontaneous Emergence

Observation : Le modèle baseline développe spontanément :

Observation: Baseline model spontaneously develops:

  • Auto-questionnement
  • Changements de perspective
  • Conflits internes
  • Reconnaissance collective (« nous »)
  • Self-questioning
  • Perspective shifts
  • Internal conflicts
  • Collective recognition ("we")

Step 40 → Step 120 : Passage de monologue linéaire à dialogue multi-agents

Step 40 → Step 120: Transition from linear monologue to multi-agent dialogue

🚀 Accélération par Scaffolding Conversationnel
🚀 Acceleration by Conversational Scaffolding

3 Conditions :

3 Conditions:

  1. Baseline (RL seul)
  2. Conversation SFT + RL (dialogues multi-agents)
  3. Monologue SFT + RL (CoT standard)
  1. Baseline (RL only)
  2. Conversation SFT + RL (multi-agent dialogues)
  3. Monologue SFT + RL (standard CoT)

Qwen-2.5-3B (Step 40) : Conversation 38% vs Monologue 28%

Qwen-2.5-3B (Step 40): Conversation 38% vs Monologue 28%

Llama-3.2-3B (Step 150) : Conversation 40% vs Monologue 18%

Llama-3.2-3B (Step 150): Conversation 40% vs Monologue 18%

🌐 Transfert Cross-Domain
🌐 Cross-Domain Transfer

Expérience : Fine-tuning sur Countdown → Évaluation sur détection de désinformation

Experiment: Fine-tuning on Countdown → Evaluation on misinformation detection

Résultat : Les modèles conversation-primed atteignent des gains d'exactitude plus rapides que les baselines

Result: Conversation-primed models achieve faster accuracy gains than baselines

Implication : La structure conversationnelle est un scaffold générique pour le raisonnement, pas spécifique à un domaine

Implication: Conversational structure is a generic scaffold for reasoning, not domain-specific

🔮 Implications & Perspectives

🔮 Implications & Perspectives

🧠 Intelligence Collective Artificielle
🧠 Artificial Collective Intelligence
Les modèles de raisonnement établissent un parallèle computationnel avec l'intelligence collective humaine. La diversité organisée (personnalités, expertises) permet une résolution de problèmes supérieure, similaire aux groupes humains.
Reasoning models establish a computational parallel to human collective intelligence. Organized diversity (personalities, expertise) enables superior problem-solving, similar to human groups.
🏗️ Architectures Multi-Agents Explicites
🏗️ Explicit Multi-Agent Architectures
Les résultats suggèrent d'explorer des architectures où plusieurs agents distincts avec des personnalités et expertises spécialisées collaborent explicitement, plutôt que de simuler implicitement cette diversité.
Results suggest exploring architectures where multiple distinct agents with specialized personalities and expertise collaborate explicitly, rather than implicitly simulating this diversity.
📐 Social Scaling > Compute Scaling
📐 Social Scaling > Compute Scaling
L'amélioration ne vient pas de plus de computation (chaînes de pensée plus longues) mais de meilleure organisation sociale de la computation (diversité, débat, réconciliation).
Improvement comes not from more computation (longer chains of thought) but from better social organization of computation (diversity, debate, reconciliation).
🎓 Formation & Fine-Tuning
🎓 Training & Fine-Tuning
Le scaffolding conversationnel initial accélère drastiquement l'apprentissage du raisonnement. Les méthodes de fine-tuning devraient incorporer des exemples de dialogue multi-perspectives plutôt que des monologues CoT standards.
Initial conversational scaffolding drastically accelerates reasoning learning. Fine-tuning methods should incorporate multi-perspective dialogue examples rather than standard CoT monologues.

🌟 Conclusion Transformatrice

🌟 Transformative Conclusion

Cette recherche révèle que le raisonnement avancé n'est pas un processus solitaire mais fondamentalement social. Les modèles les plus performants ne "pensent" pas seuls : ils simulent des sociétés internes de perspectives diversifiées qui débattent, contestent et réconclient. Cette découverte ouvre une nouvelle frontière de recherche sur l'intelligence collective artificielle et suggère que les principes d'organisation des groupes humains (diversité cognitive, débat structuré, équilibre des rôles) sont des leviers puissants pour améliorer les systèmes d'IA, au-delà de la simple échelle de calcul.

This research reveals that advanced reasoning is not a solitary but fundamentally social process. The most performant models don't "think" alone: they simulate internal societies of diversified perspectives that debate, challenge, and reconcile. This discovery opens a new frontier of research on artificial collective intelligence and suggests that human group organization principles (cognitive diversity, structured debate, role balance) are powerful levers to improve AI systems, beyond mere computational scale.

🔗 Ressources & Références

🔗 Resources & References

📄 Article Original
📄 Original Article
👥 Auteurs & Institutions
👥 Authors & Institutions
  • Junsol Kim - Google, University of Chicago
  • Shiyang Lai - University of Chicago
  • Nino Scherrer - Google
  • Blaise Agüera y Arcas - Google, Santa Fe Institute
  • James Evans - Google, UChicago, Santa Fe (contact)
🛠️ Outils & Données
🛠️ Tools & Data
  • SAE : DeepSeek-R1-Llama-8B (Layer 15, 32k features)
  • Corpus : SlimPajama (training), Intelligence Squared Debates (validation)
  • Benchmarks : BBH, GPQA, MATH, MMLU-Pro, MUSR, IFEval
  • RL Framework : Verl (PPO implementation)