Questo articolo è basato sull’intervento di Lucio Floretta e Francesco Corti a Codemotion Milano 2025
Francesco Corti è Principal Product Manager in Docker, dove lavora sull’evoluzione della Developer Experience e sull’integrazione dell’AI nelle piattaforme per sviluppatori. Con oltre 25 anni di esperienza nel software engineering e nel product management, ha contribuito a progetti in aziende come Spotify e Hyland, con un forte focus su open source, piattaforme developer e architetture cloud-native. Speaker internazionale e autore tecnico, oggi si occupa principalmente di AI infrastrutturale, LLM locali e futuro delle piattaforme di sviluppo software. Sul palco di CodemotionMilano 2025 ci ha condiviso la sua visione dell’AI nel futuro prossimo.
Dopo anni di dominio delle API cloud, una “nuova ondata” tecnologica sta cambiando il modo in cui progettiamo sistemi intelligenti. Dai laptop agli ambienti enterprise, i modelli locali non sono più un esperimento per smanettoni curiosi: stanno diventando un’opzione architetturale concreta. E anche inevitabile.All’inizio, l’AI era ricerca. Poi è diventata piattaforma. Poi servizio.
Negli ultimi anni abbiamo vissuto l’era dell’AI consumata tramite prompt o API: semplice, potente, quasi magica. Scrivi codice, mandi un prompt, ricevi una risposta. Tutto il resto succede altrove. Data center lontani, GPU invisibili, modelli giganteschi fuori dal nostro controllo diretto e magari su Marte
Era inevitabile. Ed è stato rivoluzionario.
Ma ogni ciclo tecnologico ha un momento in cui l’industria smette di chiedersi “funziona?” e inizia a chiedersi “chi la controlla davvero?”.
È esattamente il punto in cui ci troviamo oggi.
Francesco ha aperto il suo intervento con una domanda apparentemente ironica e anche un po ‘ retorica — “Quanti di voi sono stanchi di sentir parlare di AI?” — la sala ha reagito con una risata nervosa. Non perché l’AI non interessi più o perchè parlarne male vi fa apparire come dei cavernicoli. Il problema che è diventata infrastruttura culturale, il nuovo paradigma tanto ironizzato in molti contesti.
È ovunque.
Ma proprio per questo stiamo iniziando a vedere oltre l’hype.
Il punto non è che il cloud AI sia sbagliato, ma , per la prima volta su larga scala, esiste un’alternativa architetturale reale.
Le piattaforme AI cloud hanno fatto qualcosa di straordinario: hanno trasformato la complessità in semplicità, almeno in superficie.
Gli sviluppatori non devono sapere come gira un modello. Non devono gestire GPU. Non devono orchestrare inferenza distribuita. Devono solo fare chiamate API.
Questo ha accelerato l’adozione in modo brutale.
Ma quando l’AI entra nei sistemi core – pricing engine, supply chain, antifrode, support automation, agenti operativi – emergono le domande che ogni architetto software conosce bene:
Quanto mi costa davvero su scala?
Dove stanno girando i miei dati?
Quanto posso personalizzare senza riscrivere mezzo stack?
Cosa succede se il provider cambia pricing o policy?
Non sono domande nuove. Sono le stesse che abbiamo fatto con il cloud, i database managed, le piattaforme SaaS, tutte soluzioni che hanno reso la vita più facile ma anche più onerosa.
La storia del software è sempre un pendolo tra velocità e controllo.
La vera svolta: l’AI come componente sostituibile
Il punto più potente della nuova ondata di AI locale non sono i modelli. È l’architettura.
Il modello non è più il centro del sistema, ne diventa un semplice componente, e qui entra in gioco il concetto di inference engine come layer software vero e proprio. Non solo runtime, ma interfaccia stabile tra applicazione e modello.
Quando questo layer è standardizzato, succede qualcosa di molto familiare agli sviluppatori: il modello diventa intercambiabile.
Oggi Llama, domani Mistral. Tra sei mesi qualcosa che oggi non esiste ancora.
È la stessa evoluzione che abbiamo visto con database engine, container runtime, message broker.
L’AI smette di essere “la cosa speciale”. Diventa parte dello stack.
Il momento in cui la Developer Experience smette di essere il problema
Per anni l’idea di portare AI in locale significava sacrificare velocità di sviluppo.Oggi non è più necessariamente così: containerizzazione, orchestrazione semplificata e toolchain moderne stanno rendendo l’AI locale sempre più vicina alla DX del cloud.
Non identica, ma abbastanza vicina da cambiare il bilanciamento decisionale.
Se spostare un workload AI significa cambiare endpoint e ridefinire pipeline runtime, non stiamo più parlando di ricerca. Stiamo parlando di architettura applicativa reale.
Forse il passaggio culturale più difficile è accettare che il futuro non sarà dominato da pochi modelli universali.
Sarà un ecosistema: modelli per coding, per retrieval, per agenti operativi, per embedding massivi, per interazioni conversazionali verticali per qualcosa a cui adesso facciamo fatica a immaginare.
È un paradigma molto più vicino al software engineering tradizionale che all’idea di “super AI unica”, e per gli sviluppatori, paradossalmente, è un terreno molto più familiare.
Il falso mito del “locale è gratis”
La narrativa open source spesso semplifica troppo.Self-hosted non significa zero costi. Significa cambiare il tipo di costo. Meno OpEx su token ma più investimento su infrastruttura, competenze, sicurezza, osservabilità.
Ma quando l’AI diventa parte del core business, questo trade-off diventa spesso razionale. E in molti casi strategicamente necessario. Anche perchè la distanza tra modelli cloud e modelli locali si sta riducendo più velocemente di quanto molte roadmap enterprise stiano considerando.
Capacità che un anno fa erano considerate “solo hyperscaler” oggi iniziano a comparire in modelli eseguibili su infrastruttura accessibile. Questo non significa che il cloud perderà rilevanza. Significa che il design architetturale diventa molto più fluido.
Il futuro realistico: AI ibrida, software più umano
Ma la narrativa “locale contro cloud” è semplicemente sbagliata. Il futuro realistico è ibrido.
Cloud per task ad altissima complessità e orchestrazioni globali.
Locale per automazioni operative, pipeline RAG massive, agenti verticali, embedding, workload ripetitivi.
È esattamente quello che succede sempre quando una tecnologia matura: smette di essere centralizzata e diventa distribuita.
Il messaggio più importante non è tecnico
Alla fine, il takeaway più forte non è architetturale.È umano. L’AI non è una coscienza emergente. Non è un sostituto umano. È un amplificatore.E come ogni amplificatore, la differenza la fa chi lo usa.
Per la prima volta dopo anni, gli sviluppatori possono scegliere dove vive l’intelligenza delle loro applicazioni.
Possono possederla, ottimizzarla, controllarne il costo reale ma soprattutto decidere come evolve.
E storicamente, ogni volta che il controllo torna verso chi costruisce software, nasce un nuovo ciclo di innovazione.
Vuoi per l’accento di Francesco vuoi per gli argomenti trattati mi sono sentito calato in un nuovo umanesimo digitale, chiaramente per me che lo seguo già da un pò sia sui social sia nelle conf, tutte gli argomenti di cui ha parlato mi sono sembrati la naturale evoluzione del suo porsi come link tra AI infrastructure, developer tooling e platform engineering, anche se debbo dire che questa volta gli argomenti sono stati davvero tanti e credo che nel prossimo ciclo di conferenze porterà anche molti esempi pratici calati nella sua realtà. Non vedo l’ora…




