Blog.
Optimize Google BigQuery Performance /Optimiser les performances de Google BigQuery
Learning Objectives /Objectifs de formation
After completing this unit, you’ll be able to: /Une fois cette unité terminée, vous pourrez :
- Explain what Google BigQuery is. /Expliquer ce qu’est Google BigQuery.
- Explain best practices for optimizing data storage and queries in BigQuery. /Expliquer les bonnes pratiques pour optimiser le stockage des données et les requêtes dans BigQuery.
- Explain how Tableau and Google BigQuery work together with machine learning (ML) to make business predictions. /Expliquer comment Tableau et Google BigQuery fonctionnent avec machine learning (ML) pour effectuer des prédictions commerciales.
Understand the Challenges of Storing Big Data /Comprendre les défis du stockage de Big Data
In the previous unit, you learned about optimizing data queries using Tableau. Let’s take a step back—how are you storing that big data in the first place? Data warehouses have become the common solution for data storage in business, as warehouses integrate and store data from multiple sources, then serve that data up for analytics. /Dans l’unité précédente, vous avez appris à optimiser les requêtes de données à l’aide de Tableau. Prenons un peu de recul. Comment stockez-vous ces données volumineuses en premier lieu? Les entrepôts de données sont devenus la solution courante de stockage de données dans les entreprises, car les entrepôts intègrent et stockent des données provenant de plusieurs sources, puis ces donnés servent à des fins d’analyse.
The next question: Is your storage solution optimized for big data analytics? Many more challenges present themselves. /La question suivante: votre solution de stockage est-elle optimisée pour l’analyse du Big Data? De nombreux autres défis se présentent.
- It’s very difficult to design, build, maintain, and scale data warehouses for big data. /Il est très difficile de concevoir, construire, maintenir et faire évoluer des entrepôts de données pour le Big Data.
- Common data warehouses become expensive quickly as you scale. /Les entrepôts de données courants deviennent rapidement coûteux à mesure que vous évoluez.
- They’re even more expensive if you need high availability. /Ils sont encore plus chers si vous avez besoin d’une haute disponibilité.
- Some data warehouses struggle with parallel queries. /Certains entrepôts de données ont du mal avec les requêtes parallèles.
And so on. /Etc.
Use Google BigQuery to Solve Big Data Challenges /Utilisez Google BigQuery pour résoudre les défis du Big Data
These are some of the fundamental challenges Google BigQuery answers. It’s a cloud data warehouse, part of the Google Cloud product suite, designed to scale and keep costs low. /Voici quelques-uns des défis fondamentaux auxquels répond Google BigQuery. Il s’agit d’un entrepôt de données dans le cloud, qui fait partie de la suite de produits Google Cloud, conçu pour évoluer et réduire les coûts.
It’s optimized for running Structured Query Language (SQL) queries against massive, structured, and semistructured data sets. Use cases include: /Il est optimisé pour exécuter des requêtes SQL (Structured Query Language) sur des ensembles de données massifs, structurés et semi-structurés. Les cas d’utilisation incluent:
- Ad hoc analytics /Analyse ad hoc
- Web logs
- Machine/server logs
- Internet of Things (IoT) data sets /Ensembles de données de l’Internet des objets (IoT)
- Ecommerce customer behavior /Comportement des clients du Ecommerce
- Mobile app data /Données d’application mobile
- Retail analytics /Analyse de la vente au détail
- Gaming telemetry /Télémétrie de jeu
- Google Analytics Premium data /Données Google Analytics Premium
- Any data set that’s too large for standard relational database management system queries /Tout ensemble de données trop volumineux pour les requêtes du système de gestion de base de données relationnelle standard
As with Tableau, there are a set of best practices you can use with BigQuery to optimize your storage for analytics, and get the most out of your investment. /Comme avec Tableau, il existe un ensemble de bonnes pratiques que vous pouvez utiliser avec BigQuery pour optimiser votre stockage à des fins d’analyse et tirer le meilleur parti de votre investissement.
Know the Techniques for BigQuery Optimization /Connaître les techniques d’optimisation BigQuery
Best Practice | Technique |
---|---|
Rely on native tables. | With BigQuery, you optimize with iterative querying or by going to the source to get your data and repeating. Avoid using federated tables (creating a local table to represent a foreign or remote table) and instead use the Query API. This ensures high performance when you then use Tableau to query against BigQuery. |
Faites confiance aux tables natives. | Avec BigQuery, vous optimisez avec des requêtes itératives ou en accédant à la source pour récupérer vos données et les répéter. Évitez d’utiliser des tables fédérées (en créant une table locale pour représenter une table étrangère ou distante) et utilisez plutôt l’API Query. Cela garantit des performances élevées lorsque vous utilisez ensuite Tableau pour interroger BigQuery. |
Denormalize your data sets. | You denormalize data when you take individual tables and combine them or create copies based on similar or duplicate fields. Denormalizing improves data querying performance. While it does mean you’re repeating and nesting fields and increasing storage needs in the process, the high performance you get with denormalization in BigQuery outweighs this tax. |
Dénormalisez vos ensembles de données. | Vous dénormalisez les données lorsque vous prenez des tables individuelles et les combinez ou créez des copies basées sur des champs similaires ou dupliqués. La dénormalisation améliore les performances d’interrogation des données. Bien que cela signifie que vous répétez et imbriquez des champs et que vous augmentez les besoins de stockage dans le processus, les performances élevées que vous obtenez avec la dénormalisation dans BigQuery l’emportent sur cette taxe. |
Shard your tables by date where you can. | Shard refers to the act of dividing a table into smaller partitions. This is especially useful when you have data that supports partition by date, like log data, or any data that is frequently timestamped. This simplifies the data structure and enables you to focus queries by date. Note, when you query sharded data, use custom SQL in Tableau. |
Répartissez vos tableaux par date lorsque vous le pouvez. | Shard fait référence à l’action de diviser une table en partitions plus petites. Ceci est particulièrement utile lorsque vous disposez de données qui prennent en charge la partition par date, comme les données de journal ou toute donnée qui est fréquemment horodatée. Cela simplifie la structure des données et vous permet de concentrer les requêtes par date. Notez que lorsque vous interrogez des données partitionnées, utilisez SQL personnalisé dans Tableau. |
When you optimize your data and analytics, special things happen. Managers can make better informed decisions about their business, faster. People in any position of the business can do their job better, with knowledge that they’re making an impact and where they should focus. /Lorsque vous optimisez vos données et vos analyses, des choses spéciales se produisent. Les gestionnaires peuvent prendre des décisions mieux informées concernant leur entreprise, plus rapidement. Les personnes à n’importe quel poste de l’entreprise peuvent mieux faire leur travail, sachant qu’elles ont un impact et sur quoi elles doivent se concentrer.
BigQuery and Tableau can help take analytics even further with machine learning (ML). /BigQuery et Tableau peuvent vous aider à pousser encore plus loin l’analyse grâce au machine learning (ML).
Use Tableau to Visualize Google BigQuery ML Results /Utilisez Tableau pour visualiser les résultats de Google BigQuery ML
Machine learning (ML) refers to the development practice of coding a learning model for a computer and giving it thousands to millions of data points. After the model learns about the information, it can make predictions based off of that data. /L’apprentissage automatique (ML) fait référence à la pratique de développement consistant à coder un modèle d’apprentissage pour un ordinateur et à lui donner des milliers à des millions de points de données. Une fois que le modèle a pris connaissance des informations, il peut effectuer des prédictions basées sur ces données.
ML is famous for such things as swapping the faces of famous people in viral videos, and creating speech when coupled with natural language processing. There are many useful things that businesses can use it for. /ML est célèbre pour des choses telles que l’échange des visages de personnes célèbres dans des vidéos virales et la création de la parole lorsqu’il est associé au traitement du langage naturel. Les entreprises peuvent l’utiliser pour de nombreuses choses utiles.
- Predicting real estate prices. /Prédire les prix de l’immobilier.
- Recommending products on a retail site. /Recommander des produits sur un site de vente au détail.
- Predicting resource needs in areas experiencing poverty around the globe. /Prédire les besoins en ressources dans les zones en situation de pauvreté dans le monde.
- Advising on sales quotas and business targets. /Conseil sur les quotas de vente et les objectifs commerciaux.
And so on. You can integrate BigQuery ML into your data to train models that can help make business decisions. Then, use Tableau to visualize the results. /Etc. Vous pouvez intégrer BigQuery ML à vos données pour former des modèles qui peuvent vous aider à prendre des décisions commerciales. Ensuite, utilisez Tableau pour visualiser les résultats.
In this case, use Tableau’s native connector whenever possible. This optimizes performance as described in the previous unit. However, you always have the option of using custom SQL if you need to. /Dans ce cas, utilisez le connecteur natif de Tableau autant que possible. Cela optimise les performances comme décrit dans l’unité précédente. Cependant, vous avez toujours la possibilité d’utiliser SQL personnalisé si vous en avez besoin.
Good Data Analytics for Everyone /Une bonne analyse des données pour tous
As you dig into your data and analytics, you might have questions. It’s good to be curious. It’s even better to be able to answer these questions with data at your fingertips. Use these best practices to build an analytics-rich environment everyone at your company can benefit from. /Lorsque vous explorez vos données et vos analyses, vous pourriez avoir des questions. C’est bon d’être curieux. Il est encore mieux de pouvoir répondre à ces questions avec des données à portée de main
Use these best practices to build an analytics-rich environment everyone at your company can benefit from. /Utilisez ces bonnes pratiques pour créer un environnement riche en analyses dont tout le monde dans votre entreprise peut bénéficier.