market threads

latest | past | mail | submit

2 points by margarita 4 months ago | report | 1 comments

A paper presented at SOSP 2025 details how token-level scheduling helped one GPU serve multiple LLMs, reducing demand from 1,192 to 213 H20s.

margarita 4 months ago

share report