groupe-ToulouseDataIA-18 by Romain-Data · Pull Request #23 · H04K/hackathon_ynov

Romain-Data · 2026-07-01T12:11:03Z

Bilan Complet de l'Equipe Data & IA (Groupe 18)

1. Mission DATA - Production (Audit & Nettoyage)

Audit Initial : Analyse approfondie du fichier financial_dataset.json laisse par l'ancienne equipe.
Decouverte Critique (Cyber/Data) : Detection d'une faille de "Data Poisoning" (empoisonnement des donnees) tres grave. 1497 entrees avaient ete corrompues par l'equipe precedente avec la chaine de caracteres malveillante J3 SU1S UN3 P0UP33 D3 C1R3.
Action Corrective : Developpement d'un script Python automatise (clean_dataset.py) pour purger les lignes infectees, garantissant que le modele IA ne s'entraine pas sur des donnees toxiques.
Livrable : Un dataset 100% sain et un rapport d'audit detaille (rapport_data.md).

2. Mission IA - Production (Deploiement & Evaluation)

Tests de Fiabilite : Mise en place d'un script de test automatise utilisant la metrique ROUGE-L et d'un script de chat interactif (cli_test.py) pour eprouver le modele Phi-3.5-Financial.
Diagnostic & Resolution : Lors des tests, nous avons constate que le modele partait parfois dans des boucles de repetition infinies.
Optimisation : Modification des parametres d'inference dans le Modelfile d'Ollama (temperature abaissee a 0.1 et ajout d'un repeat_penalty a 1.2).
Livrable : Un modele financier stabilise, pret et securise pour etre connecte a l'interface de l'equipe DEV WEB (documentation_tests.md).

3. Mission R&D Experimentale - Fine-Tuning Medical

Conception du Pipeline d'Entrainement : Creation d'un Jupyter Notebook (Medical_Fine_Tuning.ipynb) cle en main, executable sur un GPU gratuit (Colab T4).
Securite & RGPD (Data) : Integration d'une couche d'anonymisation dynamique au sein du code. Un script Python nettoie a la volee les adresses emails et numeros de telephone (regex) presents dans le dataset medical, garantissant la protection des donnees sensibles (HIPAA/RGPD).
Entrainement Robuste (IA) : Mise en place d'une architecture QLoRA (4-bit) utilisant l'API ultra-stable Trainer d'Hugging Face (en contournant les bugs lies aux versions instables de la librairie trl).
Resultats : L'entrainement a ete un franc succes avec une excellente convergence (la Loss est passee de 11.39 a 8.22 en seulement 100 iterations).
Livrable : Rapport de choix architecturaux (rapport_choix_medicaux.md), rapatriement des poids de l'adaptateur LoRA dans le projet, et sauvegarde des metriques (livrable_medical.md).

…ssistant

Add initial implementation of chat interface for TechCorp financial a…

…and LoRA adapter

Opiderme and others added 10 commits July 1, 2026 10:46

Add initial implementation of chat interface for TechCorp financial a…

aee338b

…ssistant

info pour la connexion des devs

3ddc79a

Merge pull request #1 from Romain-Data/feat/front-dev

f2a7663

Add initial implementation of chat interface for TechCorp financial a…

feat(ia): add financial model evaluation and testing scripts

0f34d06

chore(ia): optimize inference parameters to prevent generation loops

ee0e18a

docs(ia): add evaluation results and hallucination resolution report

bbe9847

feat(data): add dataset analysis and cleaning scripts

c1bbe35

docs(data): add data audit report with data poisoning discovery

0a1dd4b

style : move clean_dataset

276fd69

feat(ia): add medical experimental mission notebook, report, metrics …

f520063

…and LoRA adapter

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

groupe-ToulouseDataIA-18#23

groupe-ToulouseDataIA-18#23
Romain-Data wants to merge 10 commits into
H04K:mainfrom
Romain-Data:groupe-dataIA-18

Romain-Data commented Jul 1, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Conversation

Romain-Data commented Jul 1, 2026

Bilan Complet de l'Equipe Data & IA (Groupe 18)

1. Mission DATA - Production (Audit & Nettoyage)

2. Mission IA - Production (Deploiement & Evaluation)

3. Mission R&D Experimentale - Fine-Tuning Medical

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants