Relazione presentata a TechFOr - Salone Internazionale delle Tecnologie per la Sicurezza - Roma - 11 maggio 2009
Una ricerca di Gartner ha stimato che l'80% delle informazioni disponibili si presentano in forma non organizzata. Articoli, documenti, email, verbali, pagine web sono solo alcune delle diverse forme della comunicazione scritta. La maggior parte delle applicazioni informatiche opera però su database, ovvero su dati organizzati. Anche gli algoritmi di Semeion necessitano di database. L'estrazione, la normalizzazione e l'inserimento di informazioni (entità e relazioni tra le entità) presenti in un testo verso un database (sintetizzabile con l'acronimo ETL) rappresenta un aspetto critico dell'intera operazione.
Si consideri ad esempio la notizia riportata nel bollettino di Aprile edito da Combating Terrorism Center (http://www.ctc.usma.edu/sentinel/):
March 2, 2009 (PAKISTAN): A suicide bomber killed six people at a religious school for girls in Balochistan Province. Pakistani press reports stated that the attacker wanted to assassinate a senior leader of Jamiat, who was scheduled to speak at the school The Jamiat leader was not harmed in the attack.
In soli due paragrafi sono presenti molte entità (associazioni criminali, persone, località, azioni, edifici, paesi, date, ecc.) e diverse azioni.