distributed-data-processing

Star

Here are 7 public repositories matching this topic...

npuichigo / blazing-fast-io-tutorial

Star

Blazing fast data loading with HuggingFace Dataset and Ray Data

dataloading distributed-data-processing

Updated Jan 12, 2024

lisp-mirror / monomyth

Star

https://gitlab.com/smaller-infinity/monomyth

common-lisp data-processing distributed-data-processing

Updated Jan 5, 2022
Common Lisp

ProcesamientoDatos2610 / proyecto2

Star

Pipeline distribuido en Hadoop + Spark que cuantifica el impacto de la brecha digital sobre los resultados Saber 11 en municipios de Colombia. Procesa 14M registros con MLlib (regresión, clustering y red neuronal)

data-science hadoop hdfs icfes distributed-data-processing

Updated May 27, 2026
Jupyter Notebook

uddiGitHub / BenchPress

Star

TPC-H Data Migration to NoSQL Pipeline with Benchmarking

data-engineering database-systems performance-benchmarking software-design distributed-data-processing

Updated Apr 30, 2026
HTML

nithya333 / NLP-PySpark-Pipeline

Star

A highly scalable, distributed Natural Language Processing (NLP) and machine learning pipeline built on Apache PySpark to perform binary sentiment classification on large-scale text corpora.

nlp sentiment-analysis pyspark classification distributed-data-processing