Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
LINUX & OPEN SOURCE
3 juillet 2013

Constituer une énorme base de connaissance à partir du web?

Le web représenterait un volume de 10^18 à 10^21 octets, et tout n'est pas indexé. Environ 50 x 10^12 pages seraient indexées, et sachant qu'une page représente environ 1Ko de texte, environ 5 x 10^16 octets seraient accessibles sous forme de textes. Ce texte pouvant être est utilisable pour des recherches d'informations par les logiciels de data mining.

 

L'idéal pour pouvoir rechercher des informations antérieur à un évènement, ou pour suivre l'évolution des certaines informations, il faudrait pouvoir stocker tout le web. Quel volume de données faudrait-il stocker?

- Faisons un rapide calcul de la capacité de stockage requise:  5 x 10^16 / 1^12 = 50 000 disques durs de 1To. Cela fait beaucoup; mais cela reste faisable pour une grosse administration ou une multinationale.

- Estimons le débit de données:  Si on se donne 1 an pour télécharger 50 x 10^12 pages, 5 x 10^16 / ( 365 X 24 X 3600 ) = 1,6 Go/s , une dizaine de connections à fibre optique suffiraient.

 

En conclusion, il est parfaitement possible de se constituer une énorme base de données à partir du web. Quant à l'utilité de cette base de données constituées de pages webs publiques? 

En terme d'espionnage, il serait plus intéressant de collecter le contenu des emails. Mais c'est bien moins évident à faire discrètement: il faudrait la complicité d'un fournisseur d'accés internet, et/ou d'un fournisseur d'adresse email comme Google, et/ou d'un hébergeur. Le plus pratique est encore d'utiliser un cheval de troie, à partir du moment où on connaît l'adresse email de la cible. Il suffit d'envoyer un email avec une pièce jointe infectée, et si le code du cheval de troie est  nouveau car spécialement développé par l'agence d'espionage. L'antivirus de l'ordinateur cible ne le detectera probablement pas.

Prism par sa collection de méta-data des email est intéressant pour le cyber espion. En collectant, l'email de l'expéditeur, les emails des destinataires, les adresses IP de l'expéditeur et des destinataires, les dates et les sujets des emails. Il est possible de cibler les emails suspects, de leurs envoyer un email d'apparence anodin contenant un cheval de troie, et de prendre le contrôle de leurs PC à distance par une connection peer-to-peer et ceci grâce aux adresses IP.

 

Publicité
Publicité
Commentaires
LINUX & OPEN SOURCE
Publicité
Archives
Publicité