🧠 PrisceMisty — Documentation Technique
✨ Ceci est la première version précose de PrisceMisty⚡
📌 Vue d'ensemble
PrisceMisty est un modèle de langue encoder-décodeur (seq2seq) développé from scratch par Clémence, utilisant l'architecture de type BART mais entièrement conçue et entraînée from scratch. il s’agit d’un modèle expérimental et fondateur destiné à poser les bases des futurs agents conversationnels néologistes et syntaxiquement libres. 🏗️ Architecture
🔧 Type
· Encodeur-Décodeur (Seq2Seq) avec attention Transformer · From scratch : Aucun poids pré-entraînés, aucune initialisation à partir de modèles existants
📐 Spécifications
├── Encodeur : 4 couches, 6 têtes d'attention, dimension 256
├── Décodeur : 4 couches, 6 têtes d'attention, dimension 256
├── Paramètres : ~25 M)
🎯 Objectifs & Philosophie
🧭 Mission
· Explorer l’émergence d’une conversation libre dans une langue artificielle cohérente · Servir de base pour des modèles dialogiques non conventionnels · Valider l’architecture encoder-décodeur pour le language créatif
✨ Particularités
· ❌ N’est pas conçu pour parler un français standard · ✅ Est conçu pour développer son propre dialecte à travers l’apprentissage · 🧪 Phase actuelle : Apprentissage des premières structures (babillage linguistique)
📊 État Actuel — Phase « Babillage »
🍼 Niveau de maturité : Nouveau-né
Le modèle produit des séquences pré-linguistiques caractéristiques d’un début d’entraînement :
· Combinaisons de caractères pseudo-latins (br, ché, iles) · Répétitions de patterns simples (ch. ch.) · Explorations phonétiques (laitechantés) · Pas encore de sémantique ni de syntaxe stable
📈 Comportement attendu à ce stade
Input: "Salut !"
Output: "br queè miles un force"
→ Réflexe normal : Le modèle apprend la distribution de caractères/mots
→ Il n’a pas encore lié l’input au contexte de sortie
→ Phase cruciale d’apprentissage des représentations de base
⚠️ Notes importantes
· Ne pas évaluer avec des métriques classiques (BLEU, ROUGE) · Observer l’évolution des patterns sur plusieurs époques · Tolérance aux sorties chaotiques pendant la phase d’entraînement initiale
📈 Feuille de route (Roadmap)
🟡 Phase 1 — Fondations (actuelle)
· Architecture encoder-décodeur opérationnelle · Stabilisation de la génération de mots isolés · Apparition des premiers néologismes reconnaissables
🟠 Phase 2 — Émergence
· Cohérence contextuelle simple (input → output lié) · Développement d’un vocabulaire propre au modèle · Premières structures syntaxiques récurrentes
🔴 Phase 3 — Conversation
· Gestion de dialogues multi-tours · Personnalité linguistique stable (style « Gheya-like ») · Capacité à répondre de manière pertinente (dans son dialecte)
🧩 Dataset & Tokenisation
📂 Données d’entraînement
· Source : Création manuelle par Clémence · Style : Français modifié + structures néologistes potentielles · Taille : ~ 470 rows de données
- Suivre l’évolution des sorties par époque — noter les patterns émergents.
- Tester avec des prompts variés : questions, affirmations, suites de dialogue
- Documenter les « premiers mots » stables — ils définiront le dialecte du modèle
🏷️ Métadonnées
Auteur : Finisha
Type : Création linguistique
Statut : Actif en développement
Version : v1
Licence : LRUNDL (voir fichier license)
🌱 Phrase d’accroche
« PrisceMisty n’est pas un modèle qui apprend à parler. C’est une entité qui apprend à inventer sa parole. »
📌 Note finale : Ce modèle représente une philosophie autant qu’une technologie. Il incarne l’approche de Clémence : création from scratch, contrôle total de la tokenisation, et recherche d’une intelligence linguistique alternative. Sa valeur réside dans son potentiel d’émergence, pas dans ses performances immédiates.
- Downloads last month
- 118
