L’Etat français vise la mise en place du système ‘HERISSON’ (Habile Extraction du Renseignement d’Intérêt Stratégique à partir de Sources Ouvertes Numérisées): tous les contenus qui transitent sur le web, les chats IRC, les mailings listes, les forums, les réseaux sociaux, les Newsgroups, les flux RSS, les blogs, podcasts, et les systèmes P2P feront l’objet d’une surveillance et d’une analyse approfondie…
Il est calibré ainsi pour accéder à n’importe quel contenu (texte, image, son et vidéo), quel que soit les langages utilisés (HTML, PHP, ASP…) en prenant en compte la problématique des liens ‘cachés’ en extrayant les liens à minima dans les applications flash contenues dans une page, les codes Java Script. ‘HERISSON’ sait aussi collecter et stocker le contenu complet d’un site FTP ou collecter simplement son arborescence, sait télécharger les fichiers disponibles sur un réseau P2P. Il a la capacité de collecter des données via les protocoles: MMS (flux vidéo type Windows Media Player), RSTP (flux vidéo type Real Player), POP3 (messagerie), et donc des e-mails. Pour faire bonne mesure, ‘le système ‘HÉRISSON’ a la capacité de gérer un éventail large, non restreint et évolutif de formats de documents de types: Vidéo (AVI, MPG, MOV, MP4, Real, FLV, OGM …), Audio (WAV, MP3, OGG…), Image (BMP, JPG, TIFF…), Texte (HTML, MHTML, Open Document, Open XML/Microsoft Office, Adobe PS/PDF, Flash).
Le système s’attaque aussi bien au web qu’aux radios et aux TV. Ainsi, les langues des documents audio devant être identifiées dans le système ‘HÉRISSON’ sont au moins le français, l’anglais, l’arabe, le russe, le farsi, l’espagnol, l’allemand, le chinois mandarin, l’italien, le serbo-croate, l’hindi, le japonais, le coréen, le turc, l’ukrainien, l’hébreu, l’urdu, l’albanais et le macédonien. Pour les images, ‘HÉRISSON’ permet l’accès aux caractéristiques brutes et aux métadonnées d’une image, comme le type et les caractéristiques d’encodage, la résolution, le taux de compression, les champs EXIF, les statistiques usuelles liées à l’image histogramme, moments centrés, … et note aussi la provenance de l’image (URL pour les images obtenues via Internet) et éventuellement le nom du photographe. ‘HÉRISSON’ reconnaît les images transformées et lorsqu’une photographie a subi des transformations (rotations, changement d’échelle, compression, modification des contrastes,…), il sait reconnaître l’image originale parmi les images qui en sont issues. ‘HÉRISSON’ permet la détection et classification d’objets contenus dans une image (personne, véhicule, meuble…). ‘HÉRISSON’ permet la détection et l’identification de personnes dans une vidéo.
Une fois la masse de données stockées, l’exploitation se fait avec une fonction de recherche avancée (ou multicritère) qui permet à minima de préciser une combinaison booléenne des paramètres suivants: date (avec intervalle), taille (avec un intervalle), type de document (texte, image, graphique, vidéo, audio), format de fichier, URL d’origine. Auxquelles s’ajoutent les propriétés du contenu: l’exclusion de mot, une expression exacte, la combinaison booléenne entre les mots-clés, les mots commençant par une chaîne de caractères donnée, distance entre les mots dans le texte, expression régulière, localisation dans la page (titre / corps de texte), une écriture phonétique, une orthographe approchée, dans une page (URL) précise, dans les pages contenant un lien précis.
‘HÉRISSON’ en est au stade du démonstrateur, il faudra quelques années encore avant que ce programme ne soit opérationnel.