Publications

3 results for Yue Zhu

Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference
- - Pol G. Recasens
  - Ferran Agullo
  - et al.
- 2025
- CLOUD 2025
Conference paper
Towards Pareto Optimal Throughput in Small Language Model Serving
- - Pol G. Recasens
  - Yue Zhu
  - et al.
- 2024
- EuroMLSys 2024
Conference paper
Characterizing Training Performance and Energy for Foundation Models and Image Classifiers on Multi-Instance GPUs
- - Connor Espenshade
  - Rachel Peng
  - et al.
- 2024
- EuroMLSys 2024
Conference paper