Il Text Mining e la sua importanza nell’OSINT

Il mondo del World Wide Web è in continua espansione ed i dati raccolti al suo interno sono innumerevoli e svariati. E’ possibile dire che oramai la quantità di informazioni presenti sul Web è tale da presentare un disordine informatico dovuto al fatto che spesso la qualità dell’informazione è bassa, non dettagliata o esauriente.  

Per poter svolgere una ricerca adeguata si deve quindi:

  1. comprendere la richiesta effettuata dalla persona o ente commissionante;
  2. fissare dei criteri di ricerca attraverso l’utilizzo di parole chiave, sinonimi, sentenze esplicative, e/o operatori booleani;
  3. studiare i risultati della ricerca ottenuta in base al tipo di fonte che riporta tale informazione, la provenienza, il background;
  4. leggere ed analizzare le notizie rapidamente, comprendere gli elementi rilevanti ed i passaggi utili per stilare un report;
  5. ed infine essere concisi, diretti e chiari nel stilare la propria analisi.

Si è visto in precedenza come l’Open Source Intelligence (OSINT), conosciuta anche come Analisi delle Fonti Aperte, disciplina afferente al mondo dell’Intelligence (Introduzione all’Intelligence) sia divenuta una disciplina fondamentale nel mondo della sicurezza, dell’economia, del giornalismo investigativo e della ricerca accademica (Introduzione all’OSINT ed al lavoro dell’analista di fonti aperte) che vede tra le proprie difficoltà principali la capacità di leggere ed analizzare i risultati ottenuti in maniera rapida ed esauriente.

Per superare questo ostacolo è possibile avvalersi di uno dei principali sistemi tecnologici che caratterizzano l’Open Source Intelligence: il Text Mining. Con questo termine si indica l’analisi e la comprensione automatica dei testi attraverso un software preposto che permette di categorizzare ed indicizzare i concetti espressi da cui viene creata una mappa visuale pesata delle relazioni intercorrenti fra questi elementi interrogabile attraverso domande oppure navigabile visivamente.

Il Text Mining è la diretta applicazione delle tecniche di Data Mining alle informazioni testuali, dove con Data Mining si intende la disciplina che coniuga l’informatica, la matematica, la statistica e permette di automatizzare molte funzioni di analisi di informazioni che, se eseguite da un solo uomo, impiegherebbero tempo, personale e risorse economiche notevoli.

Il Text Mining si compone di quattro fasi:

  1. pre-processing linguistico: i documenti vengono preparati attraverso un processo di normalizzazione in cui vengono risolte le ambiguità semantiche della lingua, vengono effettuati il riconoscimento e la lemmatizzazione delle espressioni e l’indicizzazione automatica dei documenti. In questo modo l’informazione viene strutturata per poter essere elaborata attraverso metodi informatici.
  2. mining: in questa fase avviene l’estrazione di conoscenza vera e propria e l’acquisizione di dati derivanti dai testi evitando quindi ripetizioni di informazioni
  3. clustering: i testi vengono raggruppati a seconda dell’argomento trattato per permettere una rapida consultazione e ricerca
  4. visual portrayal: è la rappresentazione visiva iconografica a livelli multipli che delinea l’immagine nitida e definita della conoscenza estratta dalle informazioni sottoposte ad elaborazioni

La possibilità di avvalersi di software di Text Mining rappresenta per l’analista delle fonti aperte uno strumento necessario per ottimizzare e rendere maggiormente efficace ed approfondito il proprio lavoro. Se pur con diverse limitazioni in merito alla loro capacità di analisi e selezione dei risultati, il mondo del Web offre attualmente diverse soluzioni freeware nel campo del Text Mining e del Data Mining.

Autore: Giuliano Bifolchi