October 19, 2021

Business Intelligence (BI) trên nền tảng GCP (Phần3): Google Cloud BI Solution

Ở hai phần trước trong seri BI on GCP (Phần 1, Phần 2) chúng ta đã tìm hiểu BI là gì, tiêu chí nào để lựa chọn hệ thống BI và tại sao Cloud BI đang là xu hướng công nghệ của thế giới, kì này chúng ta sẽ đến với một trong những Cloud BI tốt nhất hiện này: Google Cloud BI Solution!

Google Cloud BI có điểm gì nổi bật nhất so với các cloud khác? Đầu tiên, đó là tính serverless. Một cách dễ hiểu nhất: bên cạnh hạ tầng hoàn toàn do Google cung cấp, hầu hết các service trên Google Cloud đều được Google cài đặt sẵn, bạn sẽ không cần phải tự tay cấu hình quá phức tạp mà chỉ cần “plug & play”. Và khi xảy ra các sự kiện dẫn đến việc phải thay đổi cấu hình để mọi thứ hoạt động được bình thường, bạn hầu như không cần phải can thiệp vào hệ thống. Ví dụ như khi dữ liệu tăng lên đột biến, hoặc số lượng truy cập dữ liệu quá nhiều…

Tổng quan toàn bộ các thành phần của hệ thống BI, Google Cloud cung cấp đầy đủ các sản phẩm và dịch vụ, đáp ứng tất cả nhu cầu về BI của bạn, và cho bạn nhiều sự lựa chọn phù hợp với tình hình doanh nghiệp của mình.

Google Cloud BI

Hãy cùng đánh giá Google Cloud BI dựa trên 2 thành phần chính: data warehouse: BigQuery và BI real-time report tool: Google Data Studio.

Để hiểu rõ hơn về BigQuery – Data Studio, mình sẽ cùng quan sát với một BI tương tự là MS SQL Server – Power BI. BigQuery là data warehouse chức năng dùng để lưu trữ dữ liệu, tương tự như database MS SQL Server (thực tế người ta hay dùng MS SQL Server làm data warehouse nhưng bản thân nó chỉ là database nên có rất nhiều hạn chế khi sử dụng với mục đích làm warehouse). Vậy nên hiện nay có rất nhiều doanh nghiệp đang cần migrate data từ các database truyền thống lên BigQuery.
Còn Google Data Studio, cũng như Power BI, là BI Report Tool chức năng chính là để tạo report, dashboard. Cả hai tool này thực tế không hỗ trợ xử lý dữ liệu
mà chỉ hỗ trợ một số biến đổi dữ liệu đơn giản.

BigQuery là serverless data warehouse, với dung lượng lưu trữ không giới hạn, và khả năng truy vấn tới hàng trăm petabyte trên giây. Và đặc biệt BigQuery hỗ trợ kết nối từ nhiều nguồn dữ liệu khác nhau.

Vậy thì trên BigQuery có xử lý dữ liệu được không hay chỉ có tác dụng lưu trữ? BigQuery hỗ trợ đầy đủ procedure – function (có thể dùng javascript trong function) và cron job. Do đó khả năng xử lý dữ liệu ngay trên BigQuery vượt trội hơn ở database (Oracle, MSSQL…) về độ linh hoạt, còn tốc độ xử lý thì BigQuery có sự khác biệt rất lớn. Việc linh hoạt trong xử lý dữ liệu ngay trên BigQuery là một trong những lí do chính vì sao nhiều doanh nghiệp chọn BigQuery làm data warehouse, vì họ có thể sử dụng lại SQL script ở on-demand, giúp quá trình triển khai đưa hệ thống dữ liệu lên cloud được thực thi dễ dàng, nhanh chóng và khi chạy production cực kì tiết kiệm chi phí vận hành.
Nói như vậy không có nghĩa là BigQuery thỏa mãn được hết phần xử lý dữ liệu, nhiều trường hợp dữ liệu phức tạp quá thì Google Cloud có các service hỗ trợ khác: Dataprep, Dataflow, Cloud Pub/Sub…

Google Data Studio có đặc điểm gì nổi bật so với các BI real-time report tool khác? Đó là Google Data Studio hoàn toàn FREE, và vô cùng dễ sử dụng! Bên cạnh đó Google Data Studio hỗ trợ kết nối đến hầu hết các data source hiện nay.

Tổng kết lại, các bạn có thể thấy Google Cloud BI được xây dựng theo hướng linh hoạt với nhu cầu BI và dễ sử dụng đối với end-user. Kì tiếp theo, chúng ta sẽ cũng đi sâu vào cách khai thác dữ liệu với BigQuery, Data Studio và data pipeline trên Google Cloud.

Hãy liên hệ ngay với chúng tôi, Cloud Ace để được tư vấn về G Suite, Google Cloud Platform (GCP).

Other Business Intelligence on Google Cloud Platform Series:

Hieu

Hiếu hiện là Cloud Developer - Data Analyst của Cloud Ace Vietnam. Anh đã có chứng chỉ Data Engineer của Google Cloud, với hơn 3 năm phát triển ứng dụng thương mại điện tử trên Google Cloud Platform và kinh nghiệm về xây dựng hệ thống lưu trữ, phân tích dữ liệu trên cloud.

View all posts by Hieu →

Leave a Reply

Your email address will not be published. Required fields are marked *