Mentre Nvidia domina il mercato del training, sul fronte dell'inference si è aperto uno spazio competitivo. Cerebras Systems, fondata da Andrew Feldman, ha presentato a settembre 2024 il proprio servizio cloud basato sul wafer-scale CS-3, dichiarando latenze record sui modelli Llama 3.
Groq, fondata da Jonathan Ross (ex Google TPU), punta sul concetto di Language Processing Unit. La startup ha raccolto a inizio 2025 un round Series D da 640 milioni di dollari guidato da BlackRock e Cisco, con una valutazione di 2,8 miliardi.
La sfida non è la performance ma l'ecosistema software: PyTorch, vLLM e gli strumenti di deployment restano ottimizzati per l'architettura CUDA. La porta competitiva è socchiusa, non spalancata.