Summaries · Data Science & Visualization

DAY 01Yesterday MAY 12 · 20261 SUMMARIES

MarkTechPostData Science & VisualizationMay 12, 2026

skfolio: Build & Tune Portfolio Optimizers in Python

skfolio's scikit-learn API lets you construct, validate, and compare 18+ portfolio strategies—from baselines to HRP, Black-Litterman, factors, and tuned models—on S&P 500 returns with walk-forward CV and GridSearchCV.

MarkTechPost

DAY 02Sunday MAY 10 · 20261 SUMMARIES

Towards AIData Science & VisualizationMay 10, 2026

Reproduce 2011 Sentiment Word Vectors in Python

Build sentiment-aware word embeddings from IMDb reviews via semantic learning with star ratings and linear SVM classification, reproducing Maas et al. (2011) – simple method rivals modern LLMs.

Towards AI

DAY 03Friday MAY 8 · 20262 SUMMARIES

MarkTechPostData Science & VisualizationMay 8, 2026

Scanpy Pipeline for PBMC scRNA-seq Clustering & Trajectories

Process PBMC-3k data with Scanpy: filter cells (min 200 genes, <2500 genes, <5% mt), remove Scrublet doublets, select HVGs (min_mean=0.0125, max_mean=3, min_disp=0.5), Leiden cluster at res=0.5, annotate via markers, infer PAGA/DPT trajectories, score IFN response.

MarkTechPost

AI Simplified in Plain EnglishData Science & VisualizationMay 8, 2026

NMI Bias Favors Complex Clusters Over Insight

Normalized Mutual Information (NMI) rewards over-segmentation and complexity in clustering, inflating scores for intuitively poor algorithms and distorting AI evaluations.

DAY 04Thursday MAY 7 · 20263 SUMMARIES

Data and BeyondData Science & VisualizationMay 7, 2026

Balance Linear Simplicity and Nonlinear Flexibility to Avoid Fit Failures

Linear models underfit nonlinear data with rigid straight boundaries; nonlinear models overfit by memorizing noise with wiggly curves. Fix via bias-variance tradeoff for optimal generalization.

Data and Beyond

Towards AIData Science & VisualizationMay 7, 2026

Time Series Fundamentals Before Modeling

Time series data depends on order—avoid shuffling or random splits. Decompose into trend, seasonality, cycles, noise; ensure stationarity (constant mean/variance/autocovariance) via differencing, logs, detrending; diagnose with ACF/PACF for AR/MA patterns.

Towards AIData Science & VisualizationMay 7, 2026

Triple YOLO Recall with Adaptive Post-Processing

In crowded scenes, set YOLO confidence to 0.05, then filter dynamically by frame score distribution, box size (lower threshold for <5% height boxes), and pose keypoints (nose + shoulders) to detect 3x more people without retraining.

DAY 05May 6, 2026 MAY 6 · 20261 SUMMARIES

Towards AIData Science & VisualizationMay 6, 2026

Synthetic Data Exposes Hidden ML Bias Before Production

Real training data hides bias via underrepresentation (e.g., rural at 9%), proxies, and skewed labels; generate synthetic data with controlled segments (e.g., rural at 25%) to reveal it through disaggregated AUC drops (0.791 to 0.768) and disparate impact <0.8, then retrain on mixed data to fix.

Towards AI

DAY 06May 5, 2026 MAY 5 · 20262 SUMMARIES

MarkTechPostData Science & VisualizationMay 5, 2026

Momentum Dampens GD Zigzags via Gradient Averaging

On anisotropic loss surfaces (condition number 100), vanilla GD zigzags and takes 185 steps to converge (loss <0.001); momentum with β=0.9 converges in 159 steps by canceling steep-direction oscillations while accelerating flat directions—but β=0.99 diverges.

MarkTechPost

Towards AIData Science & VisualizationMay 5, 2026

Track One User-Feature Pair to Catch ML Pipeline Bugs

A rec model's 0.91 AUC failed in prod after 4 days due to 21-hour stale user_30d_purchases features. Track user U-9842 and this feature through every pipeline layer to expose and prevent such mismatches.

DAY 07May 4, 2026 MAY 4 · 20261 SUMMARIES

MarkTechPostData Science & VisualizationMay 4, 2026

Production ML Pipelines with ZenML: Custom Materializers & HPO

ZenML enables end-to-end ML pipelines with custom DatasetBundle materializers for metadata-rich serialization, fan-out over 4 hyperparameter configs for RandomForest/GradientBoosting/LogisticRegression, fan-in best-model selection by ROC AUC, full artifact tracking, and cache-driven reproducibility on breast cancer dataset.

MarkTechPost

DAY 08May 3, 2026 MAY 3 · 20262 SUMMARIES

MarkTechPostData Science & VisualizationMay 3, 2026

Stream Parse TaskTrove Dataset for AI Task Insights

Stream multi-GB TaskTrove dataset without full download; parse gzip-compressed tar/zip/JSON binaries to analyze sources, sizes (median p50 KB compressed), filenames, and detect verifiers for RL-ready tasks via multi-signal heuristics.

MarkTechPost

Data Driven InvestorData Science & VisualizationMay 3, 2026

Build Queryable Options IV DB from Live API Polls

Capture SpiderRock LiveImpliedQuote snapshots for TSLA every 10s into SQLite: append full history for audits (12k+ rows in 2min), upsert latest view per option_key. Query to reconstruct vol smiles and track ATM IV/skew changes over time.

DAY 09May 2, 2026 MAY 2 · 20261 SUMMARIES

Data and BeyondData Science & VisualizationMay 2, 2026

Data Science Splits: Engineer Pipelines or Lead Decisions

Data scientist roles are dividing into technical data engineering (SQL up 18%, ETL up 18%) and strategic decision-making; AI automates mid-level generalist tasks, squeezing the middle—specialize in one side now.

Data and Beyond

DAY 10May 1, 2026 MAY 1 · 20262 SUMMARIES

Data and BeyondData Science & VisualizationMay 1, 2026

Data And Beyond Grows to 49K Views, AI Topics Dominate

April 2026 stats: 49K views, 14.8K reads, +90 followers to 2K. Top stories cover Spark optimization, Claude AI leaks, clustering pitfalls, and RAG vs MCP.

Data and Beyond

Data and BeyondData Science & VisualizationMay 1, 2026

Decompose Signals into Frequencies for Easier Analysis

Fourier transform breaks time-domain signals into frequency components, exposing periodic patterns buried in noise for filtering, compression, and fault detection—reversible and efficient via FFT.

DAY 11April 29, 2026 APR 29 · 20261 SUMMARIES

Learning DataData Science & VisualizationApr 29, 2026

ETL Pipeline Turns Messy HR Data into Star Schema Insights

Build a scalable ETL pipeline to restructure flat HR data into a star schema fact/dimension tables, enabling analysis of manager performance, diversity (60% White, 56.6% female), recruitment channels, and 71% accurate attrition prediction where tenure drives 47% of decisions.

Learning Data

DAY 12April 21, 2026 APR 21 · 20261 SUMMARIES

Learning DataData Science & VisualizationApr 21, 2026

Automate Weekly PDF Reports with Python ETL Pipeline

Load/merge e-commerce datasets, compute revenue/profit/AOV/growth metrics, generate PDF with matplotlib/ReportLab charts and rule-based insights, email via smtplib, schedule weekly via GitHub Actions cron.

Learning Data

DAY 13April 20, 2026 APR 20 · 20262 SUMMARIES

Level Up CodingData Science & VisualizationApr 20, 2026

Preprocessing Swings CNN Accuracy from 65% to 87% on CIFAR-10

Raw CIFAR-10 pixels yield 65% test accuracy; normalization/standardization lift to 69%; geometric augmentation maintains ~67%; photometric brightness/contrast crashes to 20%; combined pipeline with deeper CNN hits 87%.

Level Up Coding

Data and BeyondData Science & VisualizationApr 20, 2026

Launch Data Governance via Pilot Projects, Not Big Plans

Start data governance with a narrow pilot project as a starting line to prove value quickly, then scale incrementally while building self-sustaining mechanisms like legislation, judiciary, and enforcement.

DAY 14April 19, 2026 APR 19 · 20261 SUMMARIES

MarkTechPostData Science & VisualizationApr 19, 2026

TabPFN Beats Tree Models on Tabular Accuracy with Zero Training

On a 5k-sample tabular dataset, TabPFN hits 98.8% accuracy vs CatBoost's 96.7% and Random Forest's 95.5%, with 0.47s setup but 2.21s inference due to in-context learning at predict time.

MarkTechPost

DAY 15April 16, 2026 APR 16 · 20261 SUMMARIES

Data and BeyondData Science & VisualizationApr 16, 2026

Cohort Analysis Exposes Donor Retention Risks

Rising aggregate retention (27% to 42%) hides leaky bathtub: 75% of 2025 revenue from 2024-2025 cohorts, with older cohorts contributing <2% each, risking collapse without long-term base.

Data and Beyond

DAY 16April 15, 2026 APR 15 · 20261 SUMMARIES

Better StackData Science & VisualizationApr 15, 2026

Redash: SQL-First Open-Source BI for Dev Dashboards

SQL-proficient devs use Redash to query multiple sources (Postgres, BigQuery, etc.), visualize results, and build shareable dashboards in minutes via self-hosted Docker—no CSVs or pricey tools needed.

Better Stack

DAY 17April 14, 2026 APR 14 · 20261 SUMMARIES

FlowingDataData Science & VisualizationApr 14, 2026

Cleveland's Enduring Impact on Data Viz and Science

William Cleveland pioneered data visualization as a rigorous discipline via graphical perception studies and books like The Elements of Graphing Data, while outlining data science's foundations in 2001, shaping tools data workers use today.

FlowingData

DAY 18April 13, 2026 APR 13 · 20263 SUMMARIES

MarkTechPostData Science & VisualizationApr 13, 2026

Build FNO & PINN Surrogates for Darcy Flow with PhysicsNeMo

Step-by-step Colab guide: generate 2D Darcy datasets via GRF & finite differences, implement/train FNO operators and PINNs, add CNN baselines, benchmark inference speeds for fast physics surrogates.

MarkTechPost

MarkTechPostData Science & VisualizationApr 13, 2026

DuckDB-Python: Fast Analytics Pipelines with Zero-Copy DataFrames

Integrate DuckDB with Python for zero-copy queries on Pandas/Polars/Arrow, advanced SQL (windows, UDFs, CTEs), bulk inserts (50k rows instantly), Parquet partitioning, and 10x+ Pandas speedups on 1M-row aggregations.

Towards AIData Science & VisualizationApr 13, 2026

Snowflake-Native Fraud ML Pipeline: Train to Monitor

Build end-to-end fraud detection with XGBoost in Snowflake ML—data loading to drift monitoring—avoiding data gravity, handling 0.5-2% imbalance via scale_pos_weight=27.6, achieving ROC-AUC=0.7275 and optimal F1=0.5874 at threshold=0.58.

DAY 19April 8, 2026 APR 8 · 20263 SUMMARIES

Andrej Karpathy GistsData Science & VisualizationApr 8, 2026

Minimal NumPy RNN for Char-Level Text Gen

Build a vanilla RNN language model from scratch in ~170 lines of NumPy: processes text chunks of 25 chars, trains with BPTT and Adagrad, generates samples after 100 iterations.

Andrej Karpathy Gists

Andrej Karpathy GistsData Science & VisualizationApr 8, 2026

NES optimizes quadratic bowl via gaussian perturbations

Sample 50 perturbed weights from N(w, 0.1), weight by standardized rewards, update w by 0.001/(50*0.1) * sum(noise * weights) to converge in 300 iters.

Towards AIData Science & VisualizationApr 8, 2026

NLP Progression: Word Clouds to Knowledge Graphs

Build semantic systems from text by progressing: word cloud (frequency) → TF-IDF (importance) → co-occurrence graph (relationships) → knowledge graph (durable meaning). Skip intermediates and your graph stores noise.