Over Florian
Engels
Tweetalig / moedertaal
Frans
Tweetalig / moedertaal
Werkervaring
- Open Source | LLM | InferenceGPU Performance EngineerHIGHTECHjanuari 2026 - Vandaag (5 maanden)Paris, FrankrijkContributeur actif à l'écosystème open-source GPU, focalisé sur l'optimisation de kernels d'inférence CUDA et le profiling de performanceEn tant que GPU Performance Engineer , j'interviens sur :→ Le développement d'un kernel FP4 fused attention pour consumer Blackwell (SM120) en inline PTX — GEMM-softmax-GEMM fusionné en registres avec mma.sync et block scaling UE8M0→ La correction de bugs de compilation et de précision sur des kernels d'inférence existants→ Le profiling et l'audit de performance de kernels GPU réels avec Nsight Compute→ La rédaction de documentation technique sur le profiling GPUContributions principales :→ model-kernels : 4 PRs merged — fix de 5 bugs de compilation et 2 bugs de précision sur un kernel INT8 fused attention, max error réduite de 1.69 à 1.37→ ThunderKittens (Stanford HazyResearch) : PR #179 — fix d'un bug de narrowing-conversion dans le base-type packing→ fp4-fused-attention-sm120 : kernel FP4 fused attention from scratch pour GPUs consumer Blackwell en inline PTX (mma.sync.aligned.mxf8f6f4)→ CUDA-Kernels : collection de kernels optimisés from scratch (GEMM, reduction, prefix scan, softmax, Flash Attention) avec profiling NCU complet — best GEMM à 58.8% de cuBLAS sur RTX 5070 Ti→ Guide de profiling GPU (20 000+ mots) couvrant Nsight Systems et Nsight Compute de bout en boutEnvironnement technique : CUDA C++, PTX inline, Tensor Cores, Nsight Compute, Nsight Systems, RTX 5070 Ti (SM120), Git, LinuxCUDA Linux HPC C++ PTX Tensor Cores Nsight Compute
- MelexisGPU Performance EngineerAUTOMOBIELmaart 2024 - december 2025 (1 jaar en 9 maanden)Brussels, BelgiumMelexis est une société spécialisée dans le test de capteurs semi-conducteurs sur infrastructure cloud AWS.J'ai rejoint l'équipe GPU Compute afin de prendre en charge le pipeline de calcul GPU pour le test de capteurs sur AWS EC2 g5 (NVIDIA A10G).En tant que GPU Performance Engineer, j'avais pour responsabilité :→ Le développement et la maintenance du pipeline GPU compute en CUDA C++→ La validation numérique multi-précision (FP64, FP32, FP16, FP8) avec CI automatisée (cosine similarity ≥ 0.9995)→ Le diagnostic et la correction de corruptions numériques (NaN en FP16) via adversarial fuzzing et dynamic range scaling→ L'optimisation des transferts host-device avec CUDA streams et pinned memoryJ'ai contribué aux évolutions suivantes :→ 40 % de réduction du temps de traitement end-to-end→ Mise en place d'un gate CI automatisé de validation numérique multi-précision→ Amélioration du throughput journalier via l'optimisation des transferts host-deviceEnvironnement technique : CUDA C++, Python, Nsight Compute, Nsight Systems, AWS EC2 (g5, A10G), Docker, GitLab CI, Linux
- Airbus via AccentureGPU Performance EngineerLUCHTVAART & RUIMTEVAARTapril 2022 - maart 2024 (1 jaar en 11 maanden)Toulouse, FranceAirbus est le leader mondial de l'aéronautique et du spatial.J'ai rejoint l'équipe d'inspection satellite afin d'optimiser un kernel CUDA de détection de fuites sur Tesla V100.En tant que GPU Performance Engineer, j'avais pour responsabilité :→ L'optimisation du kernel CUDA avec profiling Nsight Compute (coalesced memory access, élimination de warp divergence)→ La réduction des bank conflicts en shared memory via tile padding et double buffering→ La validation en production du speed-up obtenu→ La formation de 5+ ingénieurs aux workflows de profiling Nsight ComputeJ'ai contribué aux évolutions suivantes :→ 33× de speed-up sur le kernel (30 min → < 1 min), validé en productionGPU utilization de 9 % → 89 %→ 40 % de réduction des bank conflicts en shared memory→ Passage d'un batch overnight à un turnaround same-day sur les jobs d'inspection satelliteEnvironnement technique : CUDA C++, Nsight Compute, Nsight Systems, Tesla V100, Python, Linux
Aanbevelingen
Wees de eerste die Florian aanbeveelt
Help deze freelancer om te schitteren door te vertellen hoe het is om met hem of haar te werken.
Deze freelancerprofielen matchen ook met zoekopdracht.
Agatha Frydrych
Backend Java Software Engineer
4.7
(3)
2
Baptiste Duhen
Fullstack developer
4.6
(4)
5
Amed Hamou
Senior Lead Developer
4
(2)
7
Audrey Champion
Web developer
4.3
(3)
4
Opleidingen
- Master 2Paris 1 - La Sorbonne2015Finance de marché et gestion des risques