continued-pretraining

Here are 11 public repositories matching this topic...

EternalmBlue / DomainPostTrain

Domain-neutral LLM post-training pipeline for CPT, Fact-SFT, optional DPO, adapter merge, quality evaluation, GGUF/ONNX export, and OpenAI-compatible inference.

Updated Jun 28, 2026
Python

lpalbou / ForgeLLM

Star

A comprehensive toolkit for end-to-end continued pre-training, fine-tuning, monitoring, testing and publishing of language models with MLX-LM

machine-learning apple language-model mlx fine-tuning model-monitoring pretraining llm llm-training continued-pretraining mlx-lm

Updated Jul 20, 2025
Python

duongtruongbinh / vietnamese-gpt2

Star

A clean, reproducible pipeline for training Vietnamese GPT-2 from scratch and adapting it to 5-word quatrain poetry generation.

text-generation language-model poetry-generation pretraining continued-pretraining vietnamese-gpt2

Updated Apr 7, 2026
Python

cisnlp / LangSAMP

Star

LangSAMP: Language-Script Aware Multilingual Pretraining

multilingual language-embeddings continued-pretraining

Updated Sep 30, 2024
Python

MilosKosRadGit / ClozeTaskEvaluation

Star

This project evaluates Llama 3.2 3B continued pre-training for Serbian language, using a custom-made cloze-style benchmark. It supports grammatical, lexical, semantic, idiomatic, and factual sentence completion tasks. The evaluation script calculates model accuracy based on log-likelihood scoring over masked token choices.

benchmark evaluation natural-language-generation serbian-language cloze-tests generative-ai llama3-2 continued-pretraining

Updated Jun 19, 2025
Python

MilyaushaShamsutdinova / MedAdapt-LLM

Star

Adapting LLM to the medical domain through SFT, RAG, and multistep fine-tuning to enhance domain knowledge and performance.

nlp medicine fine-tuning rag sft llm continued-pretraining

Updated May 12, 2025
Jupyter Notebook

alex-is-busy-coding / Romansh-LLM

Star

Dialect-aware language model for all six Romansh varieties. QLoRA continued pretraining on ZurichNLP/quotidiana; single-GPU, reproducible. First open Romansh LM.

nlp transformers pytorch language-model dialect minority-language peft sagemaker huggingface llm qlora romansh continued-pretraining low-resource-language swiss-languages

Updated Feb 27, 2026
Python

Nic3Sh0t / finance-llm-domain-adaptation

Star

Controlled study: does continued pre-training on SEC 10-K filings help downstream financial QA? A clean negative result on a fair evaluation instrument. Qwen2.5-3B; FinQA/TAT-QA; CPT (LoRA and full-parameter), SFT, DPO.

nlp reproducible-research lora domain-adaptation peft dpo negative-results financial-nlp large-language-models qwen continued-pretraining supervised-fine-tuning finqa financial-qa tatqa

Updated Jun 18, 2026
Python

guruswami-ai / australian-english-llm

Star

Falsifiable, stage-gated methodology for resource-disciplined LLM specialisation — worked example: adapting a generic LLM to believable (non-cliché) Australian English. Work in progress (v0.1).

nlp reproducible-research evaluation methodology fine-tuning llm qlora australian-english continued-pretraining

Updated Jun 17, 2026
Python

MvdB / knowledge-lora

Star

CPT+SFT LoRA pipeline (German Wikipedia + docs) to extend LLM knowledge cutoff.

python nlp lora mistral finetuning sft llm continued-pretraining

Updated Mar 27, 2026
Python

mlynatom / master-thesis

Star

Master's thesis repository

czech llm instruction-tuning continued-pretraining llm-adaptation vocabulary-adaptation

Updated May 18, 2025
Jupyter Notebook

Improve this page

Add a description, image, and links to the continued-pretraining topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the continued-pretraining topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

continued-pretraining

Here are 11 public repositories matching this topic...

EternalmBlue / DomainPostTrain

lpalbou / ForgeLLM

duongtruongbinh / vietnamese-gpt2

cisnlp / LangSAMP

MilosKosRadGit / ClozeTaskEvaluation

MilyaushaShamsutdinova / MedAdapt-LLM

alex-is-busy-coding / Romansh-LLM

Nic3Sh0t / finance-llm-domain-adaptation

guruswami-ai / australian-english-llm

MvdB / knowledge-lora

mlynatom / master-thesis

Improve this page

Add this topic to your repo