🧠 PrisceMisty — Documentation Technique

✨ Ceci est la première version précose de PrisceMisty⚡

📌 Vue d'ensemble

PrisceMisty est un modèle de langue encoder-décodeur (seq2seq) développé from scratch par Clémence, utilisant l'architecture de type BART mais entièrement conçue et entraînée from scratch. il s’agit d’un modèle expérimental et fondateur destiné à poser les bases des futurs agents conversationnels néologistes et syntaxiquement libres. 🏗️ Architecture

🔧 Type

· Encodeur-Décodeur (Seq2Seq) avec attention Transformer · From scratch : Aucun poids pré-entraînés, aucune initialisation à partir de modèles existants

📐 Spécifications

├── Encodeur : 4 couches, 6 têtes d'attention, dimension 256
├── Décodeur : 4 couches, 6 têtes d'attention, dimension 256
├── Paramètres : ~25 M)

🎯 Objectifs & Philosophie

🧭 Mission

· Explorer l’émergence d’une conversation libre dans une langue artificielle cohérente · Servir de base pour des modèles dialogiques non conventionnels · Valider l’architecture encoder-décodeur pour le language créatif

✨ Particularités

· ❌ N’est pas conçu pour parler un français standard · ✅ Est conçu pour développer son propre dialecte à travers l’apprentissage · 🧪 Phase actuelle : Apprentissage des premières structures (babillage linguistique)

📊 État Actuel — Phase « Babillage »

🍼 Niveau de maturité : Nouveau-né

Le modèle produit des séquences pré-linguistiques caractéristiques d’un début d’entraînement :

· Combinaisons de caractères pseudo-latins (br, ché, iles) · Répétitions de patterns simples (ch. ch.) · Explorations phonétiques (laitechantés) · Pas encore de sémantique ni de syntaxe stable

📈 Comportement attendu à ce stade

Input: "Salut !"
Output: "br queè miles un force"

→ Réflexe normal : Le modèle apprend la distribution de caractères/mots
→ Il n’a pas encore lié l’input au contexte de sortie
→ Phase cruciale d’apprentissage des représentations de base

⚠️ Notes importantes

· Ne pas évaluer avec des métriques classiques (BLEU, ROUGE) · Observer l’évolution des patterns sur plusieurs époques · Tolérance aux sorties chaotiques pendant la phase d’entraînement initiale

📈 Feuille de route (Roadmap)

🟡 Phase 1 — Fondations (actuelle)

· Architecture encoder-décodeur opérationnelle · Stabilisation de la génération de mots isolés · Apparition des premiers néologismes reconnaissables

🟠 Phase 2 — Émergence

· Cohérence contextuelle simple (input → output lié) · Développement d’un vocabulaire propre au modèle · Premières structures syntaxiques récurrentes

🔴 Phase 3 — Conversation

· Gestion de dialogues multi-tours · Personnalité linguistique stable (style « Gheya-like ») · Capacité à répondre de manière pertinente (dans son dialecte)

🧩 Dataset & Tokenisation

📂 Données d’entraînement

· Source : Création manuelle par Clémence · Style : Français modifié + structures néologistes potentielles · Taille : ~ 470 rows de données

Suivre l’évolution des sorties par époque — noter les patterns émergents.
Tester avec des prompts variés : questions, affirmations, suites de dialogue
Documenter les « premiers mots » stables — ils définiront le dialecte du modèle

🏷️ Métadonnées

Auteur : Finisha
Type :  Création linguistique
Statut : Actif en développement
Version : v1
Licence : LRUNDL (voir fichier license)

🌱 Phrase d’accroche

« PrisceMisty n’est pas un modèle qui apprend à parler. C’est une entité qui apprend à inventer sa parole. »

📌 Note finale : Ce modèle représente une philosophie autant qu’une technologie. Il incarne l’approche de Clémence : création from scratch, contrôle total de la tokenisation, et recherche d’une intelligence linguistique alternative. Sa valeur réside dans son potentiel d’émergence, pas dans ses performances immédiates.

Downloads last month: 118

Safetensors

Model size

25M params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Finisha-F-scratch
/

PrisceMisty-v1