← Tutte le storieAI

Cerebras e Groq sfidano Nvidia sull'inference: la corsa ai chip a bassa latenza

Wafer-scale e LPU promettono inferenza fino a 20 volte più rapida. Ma il vero collo di bottiglia resta l'integrazione con i framework software.

XL

Xiaomeng Liu

19 Aprile 2026 · 6 min di lettura

Cerebras e Groq sfidano Nvidia sull'inference: la corsa ai chip a bassa latenza

Mentre Nvidia domina il mercato del training, sul fronte dell'inference si è aperto uno spazio competitivo. Cerebras Systems, fondata da Andrew Feldman, ha presentato a settembre 2024 il proprio servizio cloud basato sul wafer-scale CS-3, dichiarando latenze record sui modelli Llama 3.

Groq, fondata da Jonathan Ross (ex Google TPU), punta sul concetto di Language Processing Unit. La startup ha raccolto a inizio 2025 un round Series D da 640 milioni di dollari guidato da BlackRock e Cisco, con una valutazione di 2,8 miliardi.

La sfida non è la performance ma l'ecosistema software: PyTorch, vLLM e gli strumenti di deployment restano ottimizzati per l'architettura CUDA. La porta competitiva è socchiusa, non spalancata.

Continua a leggere