Technology / Retrieval e RAG

Il retrieval è la parte facile. Ragionare su ciò che recuperi è la parte difficile.

Vector search più un LLM è un'ottima demo. È un pessimo sistema. I problemi interessanti iniziano al livello successivo.

Dalla retrieval-augmented generation alla retrieval-augmented reasoning.

Lewis et al. hanno messo per iscritto l'idea originale nel 2020: combinare la memoria parametrica dentro un language model con la memoria non parametrica recuperata da qualche altra parte. Risolveva un problema reale. I modelli potevano finalmente smettere di inventarsi cose.

Da allora gran parte del RAG enterprise si è fermata a quel paper. Vector search più un LLM. Modalità di fallimento prevedibili quando la conoscenza va composta tra più fonti, quando le affermazioni si contraddicono, quando metà dei documenti ha diciotto mesi e nessuno si è preso la briga di segnalarlo.

La nostra linea di ricerca — Retrieve Is Not Enough — riguarda ciò di cui un sistema di retrieval ha bisogno una volta accettato che la ricerca per similarità è il pavimento, non il soffitto.

Quattro domande a cui la vector search non sa rispondere.

Un sistema di retrieval che arriva in produzione deve rispondere a queste domande. Nessuna riguarda la distanza coseno.

Che tipo di conoscenza ho appena trovato?

Un'affermazione, una fonte, un'ipotesi, una vecchia convinzione che ha silenziosamente smesso di essere vera. Ognuna richiede un trattamento diverso a valle.

Quanto dovrei fidarmene?

Confidenza, decadimento, provenance — proprietà di prima classe di ogni unità, non annotazioni aggiunte dopo.

Contraddice quello che ho appena detto due paragrafi fa?

E se lo fa, quale lato porta in superficie il sistema — all'agente, all'analista, alla persona che sta per prendere una decisione?

Il contesto che ho assemblato è davvero utile per il compito?

Pronto per la decisione, non solo pertinente all'argomento. Un top-k piatto di chunk simili non è un contesto. È un'ipotesi che l'LLM è stato così gentile da vestire a festa.

Sette pezzi, in ordine.

Ogni stadio è una decisione di design. Salta uno e il fallimento emerge due query dopo — di solito sotto forma di una frase sicura di sé che nessuno riesce a ricondurre a una fonte.

Retrieval ibrido

Dense embeddings, retrieval sparso, retrieval strutturale su un grafo — pesati dinamicamente in base al tipo di domanda posta. Il dense puro perde precisione sulle query ricche di entità; lo sparse puro perde recall su quelle concettuali. Li usiamo tutti e tre, e non fingiamo che uno solo basti.

Layer dei Knowledge Object

Ciò che torna indietro non è un chunk. È un'unità tipizzata — affermazione, ipotesi, decisione, osservazione — che porta con sé la propria fonte, la propria confidenza, il proprio stato di decadimento e le relazioni con le altre unità. L'agente sopra sa che tipo di cosa sta leggendo.

Grafo di provenance

Ogni affermazione recuperata è tracciabile fino alla sua origine e alle altre affermazioni che la supportano, ne dipendono o la contestano. Senza questo non puoi fare l'audit dell'output. Con questo puoi difenderlo.

Ranking di salience deterministico

L'importanza è calcolata per formula — basata su ODE, per gentile concessione del Project OIDA — non chiesta di sfuggita a un LLM. Stessa domanda, stessi dati, stesso ranking. Due mesi dopo, ancora lo stesso. È proprio quella stabilità il punto.

Rilevamento delle contraddizioni

Quando le evidenze recuperate sono in conflitto, il sistema lo segnala. Non lascia che il modello generativo scelga in silenzio una parte e scriva una frase sicura di sé al riguardo.

Filtraggio decay-aware

La conoscenza ha un tempo di dimezzamento che dipende da cosa è. Un'osservazione di mercato non è una decisione ratificata. Il nostro filtraggio conosce la differenza e abbassa il peso di conseguenza.

Assemblaggio del contesto modellato sul compito

Il contesto che arriva al modello è modellato sul compito — analisi, supporto alla decisione, memo, due diligence — non consegnato come una pila uniforme di paragrafi simili e una speranza.

Come si presenta, messo nero su bianco.

Due estratti di riferimento. L'orchestratore da un lato, la forma di ciò che restituisce dall'altro. Le implementazioni reali sono calibrate sul dominio — questa è l'ossatura, non il corpo.

retrieval.py

# Hybrid retrieval: dense + sparse + structural,
# weighted dynamically by query class.
def retrieve(query: str, k: int = 12) -> list[KnowledgeObject]:
    weights = router.weight_for(query)

    dense   = vector_index.search(query, k=k * 3)
    sparse  = bm25_index.search(query, k=k * 3)
    graph   = provenance_graph.expand(query, k=k * 2)

    candidates = fuse(dense, sparse, graph, weights=weights)
    candidates = apply_decay(candidates, now=clock.now())
    candidates = detect_contradictions(candidates)

    # ODE-based salience, deterministic across queries.
    return rank_by_salience(candidates)[:k]

knowledge_object.ts

// What the agent actually receives — not a flat chunk.
type RetrievedKO = {
  id: string
  claim: string
  type: 'factual' | 'opinion' | 'hypothesis'
      | 'decision' | 'commitment'

  // epistemic state
  confidence: number      // [0, 1], deterministic
  decayState: number      // [0, 1], 1 = fresh

  // provenance
  source: { docId: string; span: [number, number]
            actor: string; role: string }

  // graph relationships
  supports: string[]      // KO ids supported
  contradicts: string[]   // KO ids in conflict

  salience: number        // ODE-derived, ranked
}

Dove è già in funzione.

Ognuno mette alla prova la stessa architettura sotto un tipo di pressione diverso.

Investment intelligence

Madara / AskMadarAI

Analisti PE e VC che confrontano aziende, soppesano segnali contraddittori, scrivono memo in cui ogni affermazione è tracciabile. Usiamo Madara per deal sourcing, comparable e risk mapping. Ora viene scomposto in agenti specializzati — Startup Evaluator, PE Intelligence, Portfolio Monitor.

Media intelligence

Newjee

Newjee non recupera articoli. Recupera affermazioni, narrazioni, attori mediatici e pattern di framing — e mappa come lo stesso evento viene costruito tra le diverse testate. Il media monitoring smette di essere un servizio di rassegna stampa e diventa uno strumento.

Flagship venture · Epistemic Knowledge for the AI Era

OIDA

OIDA è la tech company accelerata da KVA, che lavora su infrastrutture epistemiche per le organizzazioni. Lì il retrieval è un pezzo di un Knowledge Gravity Engine che modella come la conoscenza invecchia, entra in conflitto e viene ritenuta affidabile. Lavora al livello epistemologico — cosa si sa, con quanta confidenza, cosa sta decadendo — distinto dalle piattaforme ontologiche che si limitano a modellare entità e relazioni.

Implementazioni per i clienti

Enterprise retrieval

Workflow legali e normativi, knowledge base di R&S, sistemi di due diligence, retrieval per la compliance. Stessa architettura, calibrata sul dominio, di proprietà del cliente.

Retrieve Is Not Enough.

Il position paper. Perché il retrieval basato sulla similarità si rompe sotto carico epistemico, e cosa deve fare invece un'architettura di retrieval per supportare il ragionamento, il supporto alle decisioni e output che chiunque possa difendere. In preparazione per il 2026.

Tutta la ricerca KVA →

Costruisci un retrieval che regge.

Se stai per mettere in produzione un sistema RAG — o stai sostituendo uno che ha silenziosamente smesso di guadagnarsi fiducia — eseguiamo audit mirati del retrieval e review dell'architettura.

Fai l'audit del tuo retrieval →Avanti: Knowledge Architecture →