Tiếp nối seri tìm hiểu về BI trên GCP, kì này chúng ta sẽ cùng nhau tìm hiểu sâu hơn về BigQuery – data warehouse trong giải pháp BI của GCP.
Để hiểu rõ về BigQuery thì trong thời lượng của một bài viết là không đủ, có rất nhiều vấn đề liên quan từ cấu trúc vật lý đến các tính năng và cách truy vấn dữ liệu. Tuy nhiên, dưới góc nhìn về một data warehouse nằm trong hệ thống BI, chúng ta sẽ quan tâm tới các yếu tố sau:
- Khả năng kết nối trực tiếp từ nhiều nguồn dữ liệu khác nhau
- Mức độ real-time khi thêm dữ liệu mới
- Tính dễ dùng
- Khả năng kết nối tới các công cụ BI Real-time Report
- Khả năng ứng dụng ML
Khả năng kết nối trực tiếp từ nhiều nguồn dữ liệu khác nhau
Với BigQuery Data Transfer Service và BigQuery API, gần như mọi nguồn dữ liệu đều có thể kết nối trực tiếp tới BigQuery.
BigQuery Data Transfer Service
Dịch vụ kết nối và truyền tải dữ liệu lên BigQuery hỗ trợ cho các nguồn dữ liệu sau:
– Google SaaS app như Google Cloud Storage, Google Ads, YouTube Channel, …
– Các nguồn dữ liệu từ cloud khác như Amazon S3, Amazon Redshift, Teradata, …
Third-party transfers hỗ trợ gần như tất cả các nguồn dữ liệu từ media channel như Facebook, GA, …; cho tới các loại database hiện có như MySQL, MongoDB, …
BigQuery API
REST API của BigQuery cho phép người dùng linh hoạt tạo kết nối tới BigQuery và truyền tải dữ liệu. Trong trường hợp BigQuery Data Transfer Service không hỗ trợ hoặc chi phí vượt quá khả năng chi trả của doanh nghiệp, bạn có thể tự phát triển một ứng dụng kết nối với BigQuery từ chính on-premise.
BigQuery còn cho phép bạn tải file nhiều định dạng khác nhau từ CSV, JSON cho đến file AVRO, PARQUET, …
Mức độ real-time khi thêm dữ liệu mới
Bạn có thể streaming-insert dữ liệu vào BigQuery bằng cách sử dụng BigQuery API hoặc Cloud Pub/Sub + Dataflow. Partitioned-table giúp bạn quản lý dữ liệu streaming dễ dàng hơn và tiết kiệm chi phí hơn.
Tính dễ dùng
BigQuery có giao diện web, thân thiện với người dùng từ level “begin” tới “advantaged”.
Bên cạnh đó, BigQuery là một sản phẩm hoàn toàn “serverless” của Google Cloud. Bạn không cần phải cấu hình quá nhiều để sử dụng BigQuery cũng như lo lắng về khả năng lưu trữ khi lượng dữ liệu tăng đột biến – BigQuery tự động xử lý và có thể lưu trữ không giới hạn dữ liệu mà không cần phải cấu hình!
Khả năng kết nối tới các công cụ BI Real-time Report
Hầu hết các công cụ BI Real-time Report phổ biến nhất hiện nay như Power BI, Tableau, Google Data Studio, … đều có thể kết nối trực tiếp đến BigQuery thông qua các connector miễn phí hoặc trả phí. Ngoài ra một điều ít người biết, đó là có thể lấy dữ liệu từ BigQuery về Excel để vẽ report ngay tại Excel (sử dụng Magnitude Simba drivers for BigQuery).
Khả năng ứng dụng ML
Theo xu hướng chung của các data warehouse hàng đầu thế giới hiện nay, BigQuery cung cấp BigQuery ML để thực thi các model ML ngay trên warehouse: hiệu quá và cực kì tiết kiệm cả về thời gian lẫn công sức khi bạn muốn ứng dụng ML vào phân tích dữ liệu trong hệ thống BI. BigQuery ML được sử dụng thông qua truy vấn SQL, và dữ liệu được xử lý ngay trên data warehouse. Hiện tại, BigQuery ML hỗ trợ rất nhiều model và đang được update liên tục. Bạn có thể tham khảo những model đang được BigQuery ML hỗ trợ tại đây.