Technology / Agentic Systems

Il collo di bottiglia non è la capacità. È la verificabilità.

Chiunque può affermare che un agente faccia qualcosa. Quasi nessuno può mostrarti cosa fa davvero, con quanta affidabilità e a quali condizioni. È in quel divario che le aziende smettono di andare in produzione.

TesiVerificabilità↓Il vero collo di bottiglia ComeAgenti verificati↓Sottoposti ad audit, osservabili CosaProdotti↓Agenti in produzione CostruisciCostruisci agenti verificati↓Parla con noi

La capacità è in gran parte risolta. La verificabilità no.

Toolformer (Schick et al., 2023) ha mostrato che i modelli linguistici possono imparare a invocare strumenti esterni. ReAct (Yao et al., 2023) ha dato una struttura ai flussi di ragionamento-e-azione. Le survey del 2024 descrivono un campo in cui gli agenti si specializzano, collaborano e risolvono task reali.

Ciò che nessuno ha risolto su larga scala: come verifichiamo cosa un agente sa davvero fare, con quanta affidabilità e a quali condizioni? È questo il lavoro.

Architettura, non prompt.

Un sistema agentico utile non è una raccolta di prompt dietro un dispatcher.

Ha bisogno di progettazione dei ruoli, confini sugli strumenti, permessi sulla memoria, policy di retrieval, regole di escalation, framework di valutazione, log di audit e checkpoint con human-in-the-loop. Sono questioni architetturali di prima classe. Trattarle come ripensamenti è il modo in cui i prototipi diventano rischi.

Ogni sistema che consegniamo definisce, in modo esplicito:

Ruoli degli agenti

Tipizzati, circoscritti, con confini di task espliciti.

Permessi sugli strumenti

Controllo degli accessi per ciascun agente. Non capacità indiscriminata.

Accesso alla memoria

Regole di lettura/scrittura sullo strato dei Knowledge Object.

Policy di retrieval

Quale pipeline di retrieval usa ciascun agente per quale task.

Coordinamento

Orchestrazione, swarm, gerarchico — scelto in base alla classe di problema.

Escalation

Condizioni esplicite che instradano alla revisione umana.

Valutazione

Benchmark di capacità subordinati a dimensioni minime del campione.

Log di audit

Ogni azione, chiamata a strumento e passo di ragionamento, registrabile di default.

Validazione dell'output

Output verificati rispetto allo schema e alla provenienza dei KO.

Verified Agents — lo strato di verifica per l'economia agentica.

Ogni framework promette agenti autonomi. Quasi nessuna azienda riesce a metterli in produzione, perché nessuno sa rispondere all'unica domanda che conta: cosa fa davvero questo agente, con quanta affidabilità e a quali condizioni? È il nostro marketplace di agenti pronti per la produzione e con capacità verificate — e l'infrastruttura che dà un senso a quelle parole.

Uno standard

La specifica Agent Card. Capacità, strumenti, affidabilità testata, indipendenza dal modello, regole di escalation — un unico contratto che ogni agente pubblica. Basta scatole nere nascoste dietro una chat UI.

Un benchmark

Suite di valutazione condivise per verticale. Le affermazioni sulle capacità sono subordinate a dimensioni minime del campione, con i dati preliminari etichettati come tali. L'affidabilità è misurata, non asserita.

Un ambiente di esecuzione e test

Esecuzione in sandbox con log di audit completi di ogni chiamata a strumento e passo di ragionamento. Gli agenti vengono messi alla prova contro batterie di task canoniche prima di raggiungere un acquirente.

Una community di sviluppatori

Peer review, tracciamento delle issue, flussi di contribuzione. Gli agenti sono costruiti da molti e sottoposti ad audit da tutti. La community fa parte del meccanismo di verifica — non è uno strato di marketing.

Best practice

Pattern architetturali codificati. Progettazione dei ruoli, confini sugli strumenti, policy di retrieval, permessi sulla memoria, escalation. Ciò che riporta il prompt engineering a essere ingegneria.

LLM-agnostic per costruzione

Gli agenti sono testati su più provider — GPT, Claude, Gemini, open-source. Il costo di sostituzione è misurato e pubblicato. Il lock-in sul modello è respinto a livello di specifica, non come ripensamento.

Cosa contiene davvero una Agent Card.

Le capacità sono affermazioni. L'affidabilità testata è evidenza. Gli strumenti sono circoscritti. L'indipendenza dal modello è misurata, non promessa. La card è l'unico artefatto di cui un acquirente ha bisogno prima di integrare un agente.

agent-card.yaml

agent:
  name: pe-intelligence-agent
  version: 0.4.2
  category: investment-intelligence

capabilities:
  - id: deal-comparable-analysis
    description: Build comparables for a target company
    tested_on:
      n_samples: 142
      success_rate: 0.91
      ci_95: [0.86, 0.95]
      label: validated     # not "early data"

tools:
  - market-intelligence-search
  - financial-data-api
  - knowledge-base-read       # scoped, read-only

model_independence:
  tested_with: [gpt-5, claude-opus-4-7, gemini-3-pro]
  swap_overhead_pct: 3.2

audit:
  log: [tool_call, reasoning_step, output]
  human_in_loop_on: [output_publish, escalation]

Prima un catalogo curato boutique — verticali Research, Marketing, Venture — poi un marketplace aperto. I sei pilastri insieme sono ciò che rende le strutture agentiche LLM-agnostic per costruzione, non per speranza.

Dagli strumenti di ricerca ai flussi di produzione.

Ciascuno esercita la stessa disciplina architetturale in un punto diverso dello spettro dell'autonomia.

Strumento di ricerca

Magellan

Generazione autonoma di ipotesi scientifiche. Magellan legge attraverso i silos e propone connessioni meccanicistiche che nessun singolo ricercatore avrebbe trovato — per poi valutarle su novità, plausibilità e falsificabilità. Fase di esecuzione del framework di test, validazione esperta come passo successivo.

Modernizzazione del codebase

Catalyst

Un sistema multi-agente per comprendere, rifattorizzare e modernizzare i codebase enterprise legacy. Agenti specializzati gestiscono la mappatura delle dipendenze, l'analisi architetturale, la pianificazione del refactoring, la generazione dei test, la migrazione — coordinati tramite uno strato di conoscenza condiviso.

Modernizzazione del legacy con Catalyst →

Costruttore di software enterprise

RobinDev

Costruisce software enterprise a partire dalle specifiche. Agenti per requisiti, architettura, implementazione, test, deployment — con gate di revisione umana a ogni punto di decisione architetturale. Pronto per la transizione commerciale.

Verticali agentici

Agenti Madara

Lo stack Madara, scomposto in verticali: Startup Evaluator (diligence automatizzata su aziende early-stage), PE Intelligence (deal intelligence per i flussi di PE), Portfolio Monitor (monitoraggio continuo dei segnali delle società in portafoglio).

Media intelligence agentica

Newjee

Analisi multi-agente che monitora gli attori dei media, estrae affermazioni, mappa le narrazioni e confronta l'inquadramento tra le testate. Agenti specializzati per ingestione, estrazione delle affermazioni, clustering, analisi dell'inquadramento. Output che rispettano ciò che l'analista sta cercando di fare.

Pattern architetturale

Analisi multi-strato

Quando un solo passaggio del modello non basta: uno strato recupera e struttura le evidenze, un altro classifica, un altro verifica le contraddizioni, un altro genera l'output, un altro ne controlla la qualità. Usato nell'analisi degli investimenti, nella compliance, nella revisione della ricerca, nei progetti di trasformazione AI.

Una agent factory di livello enterprise.

La parte difficile degli agenti non è farne funzionare uno in una demo. È poter dire cosa fa, con quanta affidabilità e a quali condizioni — prima che tocchi qualcosa che conta.

Eseguiamo un protocollo interno che governa qualità, prontezza e sicurezza di ogni agente che sviluppiamo. È quel protocollo che ci permette di gestire una agent factory di livello enterprise anziché un mucchio di prompt ingegnosi — e di aiutare le organizzazioni ad automatizzare processi genuinamente complessi.

Qualità

Ogni agente viene messo alla prova contro batterie di task prima di essere rilasciato. La capacità è misurata, non asserita.

Prontezza

Un'asticella definita che un agente deve superare prima di toccare un flusso di produzione — dimensioni del campione, soglie di affidabilità, regole di escalation.

Sicurezza

Permessi sugli strumenti circoscritti, regole di lettura/scrittura sullo strato dei Knowledge Object, log di audit completi di ogni azione e passo di ragionamento.

Cosa automatizza quella factory per i clienti.

Automazione di processi complessi

Processi di business multi-step che prima richiedevano un essere umano a ogni snodo — scomposti, automatizzati, con human-in-the-loop solo dove se lo guadagna.

NAV e flussi operativi

Calcolo del net asset value e flussi operativi analoghi: ingestione, riconciliazione, validazione e reportistica, con la provenienza su ogni cifra.

Ingestione multi-fonte

Agenti che attingono da database, documenti, API, feed e fogli di calcolo — normalizzando dati eterogenei in una superficie su cui il resto del sistema può ragionare.

Analisi della conoscenza complessa

Oltre l'estrazione: rilevamento delle contraddizioni, ranking della salienza e sintesi pronta per la decisione su conoscenza ampia, conflittuale e in via di invecchiamento.

Metti in produzione agenti di cui la tua azienda può davvero fidarsi.

Se stai valutando framework per agenti, costruendo flussi agentici interni o cercando di portare un prototipo oltre la fase di demo — eseguiamo revisioni architetturali e benchmark di capacità.

Rivedi il tuo stack di agenti →Avanti: Organisational AI →