October 16, 2021
BigQuery API còn cho phép bạn tải file nhiều định dạng khác nhau từ CSV, JSON cho đến file AVRO, PARQUET, ...

Business Intelligence (BI) trên nền tảng GCP (Phần 4): BigQuery – Data Warehouse

Tiếp nối seri tìm hiểu về BI trên GCP, kì này chúng ta sẽ cùng nhau tìm hiểu sâu hơn về BigQuery – data warehouse trong giải pháp BI của GCP.

Để hiểu rõ về BigQuery thì trong thời lượng của một bài viết là không đủ, có rất nhiều vấn đề liên quan từ cấu trúc vật lý đến các tính năng và cách truy vấn dữ liệu. Tuy nhiên, dưới góc nhìn về một data warehouse nằm trong hệ thống BI, chúng ta sẽ quan tâm tới các yếu tố sau:

  • Khả năng kết nối trực tiếp từ nhiều nguồn dữ liệu khác nhau
  • Mức độ real-time khi thêm dữ liệu mới
  • Tính dễ dùng
  • Khả năng kết nối tới các công cụ BI Real-time Report
  • Khả năng ứng dụng ML

Khả năng kết nối trực tiếp từ nhiều nguồn dữ liệu khác nhau

Với BigQuery Data Transfer ServiceBigQuery API, gần như mọi nguồn dữ liệu đều có thể kết nối trực tiếp tới BigQuery.

BigQuery Data Transfer Service

Dịch vụ kết nối và truyền tải dữ liệu lên BigQuery hỗ trợ cho các nguồn dữ liệu sau:
– Google SaaS app như Google Cloud Storage, Google Ads, YouTube Channel, …
– Các nguồn dữ liệu từ cloud khác như Amazon S3, Amazon Redshift, Teradata, …
Third-party transfers hỗ trợ gần như tất cả các nguồn dữ liệu từ media channel như Facebook, GA, …; cho tới các loại database hiện có như MySQL, MongoDB, …

Dịch vụ kết nối và truyền tải dữ liệu lên BigQuery hỗ trợ cho các nguồn dữ liệu sau.

BigQuery API

REST API của BigQuery cho phép người dùng linh hoạt tạo kết nối tới BigQuery và truyền tải dữ liệu. Trong trường hợp BigQuery Data Transfer Service không hỗ trợ hoặc chi phí vượt quá khả năng chi trả của doanh nghiệp, bạn có thể tự phát triển một ứng dụng kết nối với BigQuery từ chính on-premise.
BigQuery còn cho phép bạn tải file nhiều định dạng khác nhau từ CSV, JSON cho đến file AVRO, PARQUET, …

BigQuery API còn cho phép bạn tải file nhiều định dạng khác nhau từ CSV, JSON cho đến file AVRO, PARQUET, ...

Mức độ real-time khi thêm dữ liệu mới

Bạn có thể streaming-insert dữ liệu vào BigQuery bằng cách sử dụng BigQuery API hoặc Cloud Pub/Sub + Dataflow. Partitioned-table giúp bạn quản lý dữ liệu streaming dễ dàng hơn và tiết kiệm chi phí hơn.

Tính dễ dùng

BigQuery có giao diện web, thân thiện với người dùng từ level “begin” tới “advantaged”.
Bên cạnh đó, BigQuery là một sản phẩm hoàn toàn “serverless” của Google Cloud. Bạn không cần phải cấu hình quá nhiều để sử dụng BigQuery cũng như lo lắng về khả năng lưu trữ khi lượng dữ liệu tăng đột biến – BigQuery tự động xử lý và có thể lưu trữ không giới hạn dữ liệu mà không cần phải cấu hình!

Khả năng kết nối tới các công cụ BI Real-time Report

Hầu hết các công cụ BI Real-time Report phổ biến nhất hiện nay như Power BI, Tableau, Google Data Studio, … đều có thể kết nối trực tiếp đến BigQuery thông qua các connector miễn phí hoặc trả phí. Ngoài ra một điều ít người biết, đó là có thể lấy dữ liệu từ BigQuery về Excel để vẽ report ngay tại Excel (sử dụng Magnitude Simba drivers for BigQuery).

Khả năng ứng dụng ML

Theo xu hướng chung của các data warehouse hàng đầu thế giới hiện nay, BigQuery cung cấp BigQuery ML để thực thi các model ML ngay trên warehouse: hiệu quá và cực kì tiết kiệm cả về thời gian lẫn công sức khi bạn muốn ứng dụng ML vào phân tích dữ liệu trong hệ thống BI. BigQuery ML được sử dụng thông qua truy vấn SQL, và dữ liệu được xử lý ngay trên data warehouse. Hiện tại, BigQuery ML hỗ trợ rất nhiều model và đang được update liên tục. Bạn có thể tham khảo những model đang được BigQuery ML hỗ trợ tại đây.

Other Business Intelligence on Google Cloud Platform Series:

Hieu

Hiếu hiện là Cloud Developer - Data Analyst của Cloud Ace Vietnam. Anh đã có chứng chỉ Data Engineer của Google Cloud, với hơn 3 năm phát triển ứng dụng thương mại điện tử trên Google Cloud Platform và kinh nghiệm về xây dựng hệ thống lưu trữ, phân tích dữ liệu trên cloud.

View all posts by Hieu →

Leave a Reply

Your email address will not be published. Required fields are marked *