Cerebras e Groq sfidano Nvidia sull'inference: la corsa ai chip a bassa latenza

Wafer-scale e LPU promettono inferenza fino a 20 volte più rapida. Ma il vero collo di bottiglia resta l'integrazione con i framework software.

Xiaomeng Liu

19 Aprile 2026 · 6 min di lettura

Cerebras e Groq sfidano Nvidia sull'inference: la corsa ai chip a bassa latenza

Mentre Nvidia domina il mercato del training, sul fronte dell'inference si è aperto uno spazio competitivo. Cerebras Systems, fondata da Andrew Feldman, ha presentato a settembre 2024 il proprio servizio cloud basato sul wafer-scale CS-3, dichiarando latenze record sui modelli Llama 3.

Groq, fondata da Jonathan Ross (ex Google TPU), punta sul concetto di Language Processing Unit. La startup ha raccolto a inizio 2025 un round Series D da 640 milioni di dollari guidato da BlackRock e Cisco, con una valutazione di 2,8 miliardi.

La sfida non è la performance ma l'ecosistema software: PyTorch, vLLM e gli strumenti di deployment restano ottimizzati per l'architettura CUDA. La porta competitiva è socchiusa, non spalancata.

Continua a leggere

L'AI generativa entra in azienda: Mistral a 11,7 miliardi, Anthropic verso i 350

Dopo il Series C da 1,7 miliardi guidato da ASML, Mistral consolida il primato europeo. Anthropic raccoglie altri 10 miliardi da Google.

Xiaomeng Liu·27 Aprile 2026·8 min

Sierra a 10 miliardi: gli agenti AI di Bret Taylor riscrivono il customer service

Fondata dall'ex co-CEO di Salesforce, Sierra ha chiuso il 2025 con una valutazione da 10 miliardi di dollari. Agent Studio 2.0 punta a sostituire i click.

Xiaomeng Liu·16 Aprile 2026·6 min

Capitali AI: i fondi VC alzano i late-stage e spostano l'asse dal seed al growth

Dopo due anni di seed e Series A frenetici sull'AI, i grandi fondi della Silicon Valley raccolgono nuovi veicoli dedicati al growth. Cosa significa per startup e LP.

Cristian Veronesi·15 Aprile 2026·5 min