Publications

9 results for Yue Zhu

Revisiting Disaggregated Large Language Model Serving for Performance and Energy Implications
- - Jiaxi Li
  - Yue Zhu
  - et al.
- 2026
- EuroSys 2026
Workshop paper
When to Reason: Semantic Router for vLLM
- - Chen Wang
  - Xunzhuo Liu
  - et al.
- 2025
- NeurIPS 2025
Workshop paper
Networking for Stateful LLM Inference
- - Junchen Jiang
  - Yuhan Liu
  - et al.
- 2025
- SIGCOMM 2025
Tutorial
Towards Efficient Key-Value Cache Management for Prefix Prefilling in LLM Inference
- - Yue Zhu
  - Hao Yu
  - et al.
- 2025
- CLOUD 2025
Short paper
Scalable and Efficient LLM Serving with the vLLM Production Stack
- - Junchen Jiang
  - Yue Zhu
- 2025
- OSSNA 2025
Talk
How Low Can LoRA Go: System-Level Throughput, Energy, and Model Quality Tradeoffs when Fine-Tuning Adapters
- - Connor Espenshade
  - Umesh Deshpande
  - et al.
- 2025
- ISCA 2025
Workshop paper
Optimizing GPU Multiplexing for Efficient and Cost-Effective Access to Diverse Large Language Models in GPU Clusters
- - Yue Zhu
  - Chen Wang
  - et al.
- 2024
- MASCOTS 2024
Conference paper
GPU OPTIMIZATIONS FOR EFFICIENT AND COST-EFFECTIVE ACCESS TO DIVERSE LARGE LANGUAGE MODELS IN RESEARCH CLUSTER
- - Chen Wang
  - Yue Zhu
  - et al.
- 2024
- MLSys 2024
Poster
Towards Pareto Optimal Throughput in Small Language Model Serving
- - Pol G. Recasens
  - Yue Zhu
  - et al.
- 2024
- EuroSys 2024
Workshop paper