Skip to main content

Come

Le informazioni essenziali estratte automaticamente sono rappresentate sia in modo concettuale sia in forma vettoriale e rese disponibili per ricerca semantica e question answering interattivo

I servizi Isagog possono essere composti in sequenze (pipeline) di elaborazione che integra l’estrazione automatica delle informazioni, la rappresentazione concettuale e la rappresentazione vettoriale basata su embedding provenienti da qualsiasi Large Language Model tra quelli disponibili. Questo approccio consente di trasformare dati testuali grezzi in informazioni strutturate e facilmente interrogabili, migliorando l’accessibilità, la ricerca e l’analisi dei dati.

Pre-elaborazione dei documenti

Questa fase iniziale comprende la pulizia e la normalizzazione dei dati testuali. Documenti provenienti da diverse fonti possono includere formattazioni inconsistenti, errori di ortografia, e linguaggio non standard. La pre-elaborazione si occupa di rimuovere il rumore dai dati, come intestazioni, piè di pagina, e formattazioni speciali, nonché di correggere errori ortografici e grammaticali. Può includere anche la tokenizzazione del testo, ovvero la suddivisione in unità più piccole come passaggi, frasi o singole parole.

Estrazione di informazione

Utilizzando opportuni Language Model tra quelli disponibili, questa fase si concentra sull’identificazione e l’estrazione di unità significative (persone, organizzazioni, luoghi, concetti, fatti, situazioni, dichiarazioni, ecc.), la loro classificazione, le relazioni tra di esse all’interno dei testi. Questo processo è implementato integrando tecniche di NLP tradizionale e le produzioni neurali generate in base a specifici input (prompt) e loro concatenazioni di ragionamento (Chain-of-Thought).

Costruzione del Knowledge Graph

Le concettualizzazioni estratte vengono utilizzate per popolare basi di conoscenza (Knowledge Graph). In questa rappresentazione logica, le entità sono i nodi del grafo, mentre le relazioni sono gli archi che li collegano. Questo permette di visualizzare in modo intuitivo come le diverse entità siano interconnesse, facilitando l’analisi della base conoscenza e la scoperta di insights che non sarebbero evidenti analizzando i testi originali. Inoltre, questa rappresentazione rende possibile modificare e integrare il contenuto, garantendo completezza, la correttezza e la trasparenza dell’informazione.

Creazione di embedding con il Language Model

Parallelamente alla costruzione del Knowledge Graph, gli elementi concettuali vengono processati per generare rappresentazioni vettoriali (embedding) di entità e documenti. Basandosi su Language Models, questi vettori catturano il contesto semantico (latente) delle parole e delle frasi in uno spazio multidimensionale, permettendo di effettuare operazioni matematiche per determinare la somiglianza reciproca per operazioni di partizionamento (clustering), o rispetto alle frasi interrogative in fase di ricerca, o ancora per generare risposte nelle interazioni di question-answering.

Popolamento del Vector Database

Gli embedding generati vengono memorizzati in un Vector Database, che è ottimizzato per la ricerca e il recupero efficiente di dati in forma vettoriale. Questo database permette di effettuare ricerche basate sulla similarità semantica, andando oltre il matching esatto di parole chiave, per trovare documenti e informazioni pertinenti anche quando non contengono esattamente i termini di ricerca.

Interrogazione e Question Answering

Knowledge Graph e Vector Database, integrati, consentono di interrogare i dati in diverse modalità. Gli utenti possono formulare query complesse per esplorare le relazioni tra entità nel Knowledge Graph o utilizzare le funzionalità di ricerca semantica del Vector Database per trovare documenti e informazioni rilevanti basandosi sul contesto e sulla somiglianza dei contenuti, piuttosto che su parole chiave specifiche. Le funzionalità di ricerca possono essere utilizzate nell’architettura generativa basata su LLM, specificando anche l’evidenza alla base della risposta (Retrieval Augmented Generation).

Come