Google annonce la sortie de Google BigQuery un nouveau service web dans le Cloud. Il s’agit d’un pur service web qui vous permet d’analyser et de lancer des requêtes sur des quantités énormes de données, plusieurs Gigaoctets par exemple. Le service est sécurisée, vous pouvez utiliser différents clients dont une pure interface REST simple à utiliser. Il est possible de lancer des requêtes « à la SQL » sur ses propres données, mais aussi d’autres données publiques. Cela ouvre la porte je pense à de nouveaux types de services et à de nouveaux types de fournisseurs de données. Imaginons qu’une entreprise décide d’y stocker l’ensemble des horaires de vols dans le monde en 2012, et de proposer l’accès à cette donnée ? Ceci permettrait alors à tout un tas d’applications de consommer de la donnée et de ne payer que cette consommation. La donnée sera facturée comme de l’électricité, bref comme une commodité. Intéressant non ?
D’un point de vue technique, BigQuery est plus tourné vers la Business Intelligence. Les données sont structurées dans des cubes OLAP. Pour une utilisation plus classique, Google recommande plutôt d’utiliser Google Cloud SQL, une base MySQL dans le Cloud. Attention, BigData n’est pas une base de données. Vous ne pouvez pas faire de mise à jour ou d’effacement. Il n’y a pas d’indexes, et bien évidemment il n’est pas possible de faire des transactions. L’usage est complètement tourné vers des systèmes à la recherche d’une solution flexible, évolutive et puissante pour analyser de larges volumes de données.
Côté prix pour l’instant, pas plus d’informations. Chaque utilisateur est limité à 1000 requêtes par jour, dont 2 requêtes concurrentes. Vous pouvez importer jusqu’à 100GB de données, ce qui laisse le temps de voir venir je pense.
Enfin pour tester et s’amuser, Google propose quelques espaces de données librement accessibles. Vous pouvez consulter des données démographiques enregistrées aux USA, des données sur Wikipedia et des informations météorologiques.
Il ne reste plus qu’à attendre quelques semaines et je suis certain que nous verrons de nouvelles applications Webs utilisatrices de ce service. Asynchrone, continuation, REST interface… ça me rappelle quelqu’un.
Notez que GitHub publie également certains jeux de données publiquement sur Google BigQuery: https://github.com/blog/1112-data-at-github