October 19, 2021

Google BigQuery

Bigquery là gì ?

BigQuery là một dịch vụ web RESTful cho phép tương tác để phân tích các tập dữ liệu khổng lồ lên tới hàng tỉ dòng hoạt động cùng với Google Storage . Nó là một cơ sở hạ tầng như một dịch vụ ( IaaS ) có thể được sử dụng bổ sung với MapReduce.
Bigquery có khả năng mở rộng và dễ sử dụng, cho phép các nhà phát triển và doanh nghiệp khai thác các phân tích dữ liệu mạnh mẽ theo yêu cầu.
Đây là một hệ thống OLAP (xử lý phân tích trực tuyến) và không phải là hệ thống OLTP (xử lý giao dịch trực tuyến) như MySql.

Ưu điểm của Google Cloud Bigquery

Khởi động và chạy nhanh

Thiết lập data warehouse của bạn trong vài giây và bắt đầu truy vấn ngay tức thời. Google BigQuery chạy các truy vấn SQL cực nhanh trên gigabyte đến petabyte dữ liệu và giúp dễ dàng kết hợp các tập dữ liệu công khai hoặc thương mại với dữ liệu của bạn. Loại bỏ việc tốn thời gian cho công việc cơ sở hạ tần và giảm thời gian chết với một cơ sở hạ tầng serverless vì được bảo trì liên tục, vao gồi các bản vá và cập nhật. Google Bigquery sử dụng giống như ANSI-compiant SQL và provides ODBC và JDBC drivers để tích hợp dữ liệu của bạn một cánh nhanh chóng và dễ dàng.

Mở rộng trơn tru

Không phải đau đầu với việc lên kế hoạc về sức chứa data warehouse và chạm tới vô cực với mở rộng hoặc thu hẹp sức chưa không giới hạn. Google BigQuery đáp ứng những thách thức của việc phân tích thời gian thực bằng cách tận dụng cơ sở hạ tầng serverless của Google cùng với tính năng tự động mở rộng quy mô và tính năng streaming hiệu suất cao để tải dữ liệu. Bigquery quản lý lưu trữ cột, thực hiện song song và tự động tối ưu hóa hiệu suất giúp người dùng có thể nhanh chóng và đồng thời phân tích dữ liệu bất kể số lượng người dùng hoặc kích thước của dữ liệu.

Tăng khả năng nhận định của bạn với phân tích mạnh mẽ

Có được thông tin đánh giá từ dữ liệu của bạn một cách nhanh chóng mà không cần sap chép hay di chuyển nó. Google BigQuery cung cấp cho bạn một chế độ xem toàn bộ dữ liệu của bạn bằng cách truy vấn dữ liệu liên tục được lưu trử trong bộ nhớ cột được quản lý bới Bigquery, Google Cloud Storage, Google Cloud Bigtable, Google Sheets và Google Drive. BigQuery tích hợp với các công cụ ETL hiện có như Informatica và Talend để làm phong phú thêm dữ liệu bạn đã sử dụng. BigQuery hỗ trợ các công cụ BI phổ biến như Tableau, MicroStrategy, Looker, Google Data Studio, vì vậy bất kỳ ai cũng có thể dễ dàng tạo report và dashboards. Tự động nhập và trực quan hóa Quảng cáo Google và dữ liệu tiếp thị bằng cách sử dụng Dịch vụ BigQuery Data Transfer Service để thiết lập data warehouse tiếp thị cao cấp chỉ trong vài cú nhấp chuột

Bảo vệ dữ liệu và vốn đầu tư kinh doanh

Trải nghiệm hiệu suất vô đối, bảo mật và chức năng chưa từng có với chi phí phù hợp với ngân sách của bạn. Google BigQuery loại bỏ gánh nặng tính toán dữ liệu bằng cách cung cấp sao chép dữ liệu tự động để khôi phục khi gặp trục trặc và khả năng xử lý cao mà không phải trả thêm phí. Google Bigquery cung cấp 99.9% SLA và cam kết về an toàn dữ liệu US-EU. BigQuery giúp bạn dễ dàng duy trì bảo mật mạnh mẽ bằng tính năng fine-grained và kiểm soát quản lý quyền truy cập. Dữ liệu BigQuery luôn được mã hóa, ở trạng thái nghỉ và chuyển tiếp.

Các chức năng của BigQuery

Severless

Serverless data warehousing cung cấp cho bạn tài nguyên bạn cần khi bạn cần chúng. Với BigQuery, bạn có thể tập trung vào dữ liệu và phân tích của mình thay vì điều hành và tính toán kích thước tài nguyên.

Phân tích thời gian thật

BigQuery streaming insertion API tốc độ cao cung cấp nền tảng mạnh mẽ để phân tích thời gian thật. BigQuery cho phép bạn phân tích những gì xảy ra tức thời băng cách làm cho dữ liệu kinh doanh mới nhất của bạn sẵng sàng để phân tích.

Tính khả dụng cao

Dữ liệu miễn phí và nhân rộng compute trên nhiều địa điểm nghĩa là dữ liệu của bạn sẵn sàng để truy vấn kể cả trong trường hợp lỗi. BigQuery minh bạch và tự động cung cấp bộ nhớ có độ bền cao, được sao chép và tính sẵng sàng cao mà không phải trả thêm chi phí và không cần thiếp lập thêm.

Standard SQL

BigQuery hỗ trợ ng6on ngữ standard SQL tuân thủ ANSI:2011, giảm nhu cầu viết lại code và cho phép bạn tận dụng các lợi thế từ các tính năng nân cao SQL

Federated query and logical data warehousing

BigQuery phá vỡ các data silo vì vậy bạn có thể phân tích toàn bộ dữ liệu từ một nơi. Thông qua truy vấn được liên kết mạnh mẽ, BigQuery có thể xử lý dữ liệu trong object storage (Cloud Storage), transactional databases (Cloud Bigtable) hoặc spreadsheets trong Google Drive – tất cả mà không sao chép dữ liệu. Một công cụ cho phép bạn truy vấn tất cả các nguồn dữ liệu của mình

Storage and Compute riêng biệt

BigQuery cung cấp cho bạn quyền kiểm soát chi phí và quyền truy cập. Với sự riêng biệc của BigQuery với Storage và Compute, Bạn có thể chi trả cho các tài nguyên bạn sử dụng. Bạn có tùy chọn để chọn giải pháp lưu trữ và xử lý phù hợp với doanh nghiệp của bạn và kiểm soát quyền truy cập cho từng cái.

Dễ dàng sao lưu và phục hồi

Bigquery tự động tái tạo dữ liệu và giữ lịch sử thay đổi trong 7 ngày, giảm lo lắng về những thay đổi dữ liệu bất ngờ. Nó cho phép bạn dễ dàng khôi phục và so sánh dữ liệu ở nhiều thời gian khác nhau.

Dịch vụ Data Transfer

BigQuery giúp dễ dàng bắt đầu với data warehousing, ngay cả khi dữ liệu của bạn nằm trong AssA application. BigQuery Data Transfer Service tự động chuyển dữ liệu từ các nguồn dữ liệu bên ngoài như DoubleClick, AdWords, youtube sang Google BigQuery theo lịch và được quản lý hoàn toàn.

Hội nhập hệ sinh thái Big Data

Với Cloud Dataproc và Cloud Dataflow, BigQuery tích hợp với hệ sinh thái Apache Big Data, cho phép Hadoop/Spark và Beam có thể đọc hoặc ghi dữ liệu trực tiếp từ BigQuery. Bigquery cho phép bạn tận dụng tối đa dữ liệu có cấu trúc bằng cách làm cho nó dễ dàn phân tích trong SQL và dễ dàng tích hợp với Big Data jobs hiện có của bạn, vì vậy bán không cần phải vứt bỏ công việc bạn đã hoàn tất.

Petabyte scale

BigQuery nhanh và dễ sử dụng trên bất kỳ kích thước dữ liệu nào. Với BigQuery, bạn sẽ nhận được hiệu suất tuyệt vời trên dữ liệu của mình, trong khi biết bạn có thể mở rộng quy mô để lưu trữ và phân tích thêm hàng petabyte mà không phải mua thêm dung lượng.

Mô hình giá linh hoạt

BigQuery cho phép bạn chọn mô hình đặt giá phù hợp nhất với bạn. On-demand pricing cho phép bạn chỉ trả tiền cho việc lưu trữ và tính toán mà bạn sử dụng. Plat-rate pricing cho phép người dùng hoặc doanh nghiệp có khối lượng lớn chọn chi phí ổn định hàng tháng để phân tích.

Mã hóa dự liệu và bảo mật

Bạn có toàn quyền quản lý ai có thể truy cập vào dữ liệu của bạn trên Google BigQuery. BigQuery giúp bạn dễ dàng duy trì tính bảo mật mạnh mẽ với nhận dạng fine-grained và quản lý quyền truy cập bằng Google Cloud IAM và dữ liệu của bạn luôn được mã hóa khi nghỉ ngơi và chuyển tiếp.

Data Locality

Bạn có tùy chọn lưu trữ dữ liệu BigQuery của mình ở các vị trí ở US và European trong khi tiếp tục hưởng lợi từ dịch vụ được quản lý hoàn toàn. BigQuery cung cấp cho bạn tùy chọn kiểm soát dữ liệu địa lý, mà không phải đau đầu trong việc thiết lập và quản lý các cụm và tài nguyên máy tính khác trong khu vực.

Nền tản cho AI

BigQuery cung cấp nền tảng linh hoạt, mạnh mẽ cho Machine Learning và Trí tuệ nhân tạo. BigQuery cho phép tích hợp với CloudML Engine và TensorFlow để đào tạo các models mạnh mẽ trên dữ liệu có cấu trúc. Hơn nữa, khả năng chuyển đổi và phân tích dữ liệu của BigQuery giúp bạn có được dữ liệu của mình trong khuôn mẫu cho Machine Learning.

Nhập liệu linh hoạt

Lấy dữ liệu từ Google Cloud Storage hay Google Cloud Datastore backups hoặc stream data vào Bigquery cùng lúc hàng ngìn dòng mỗi giây để cho phép phân tích dữ liệu của bạn trong thời gian thực. Sử dụng các công cụ tích hợp dữ liệu quen thuộc như Informatica, Talend và các công cụ khác.

Quản trị dữ liệu

Bigquery cung cấp kiểm soát truy cập fine-grained trên data và kiểm soát role-based trên API thông qua việc tích hợp với Google Cloud IAM. Với BigQuery và Cloud IAM, bạn có thể chắc chắn rằng dữ liệu của bạn luôn an toàn với các truy cập trái phép.

Hỗ trợ nhiều ngôn ngữ lập trình

BigQuery cung cấp một REST API dễ dàng truy cập và tích hợp vào ứng dụng. Để cho phép các loại lập trình viê, Bigquery cung cấp các thư viện trong Java, Python, Node.js, C#, Go, Ruby và PHP. Người dùng doanh nghiệp có thể dùng Google Apps Script để truy cập vào BigQuery từ Google Sheets.

Giám sát và logging phong phú với Stackdriver

BigQuery cung cấp khả năng giám sát, logging và cảnh báo thông qua Stackdriver Audit Logs. Tài nguyên BigQuery có thể được theo dõi trong nháy mắt và BigQuery có thể phục vụ như một kho lưu trữ cho logs từ bất kỳ ứng dụng hoặc dịch vụ nào bằng cách sử dụng Stackdriver Logging

Quản lý chi phí

BigQuery cung cấp cơ chế kiểm soát chi phí cho phép bạn giới hạn chi phí hàng ngày của mình

BigQuery có thể được sử dụng ở đâu ?

  • Real-time inventory management system
  • Internet of Things
  • Large scale events and log analytics
  • Predictive digital marketing
  • Data distribution with Commercial Datasets
  • Public datasets

Pham Van Tuyen

Anh Tuyen Pham là Tổng giám đốc của Cloud Ace Việt Nam và là GDG Cloud HCM Chapter Lead. Anh là diễn giả quen thuộc tại các sự kiện do Google tổ chức tại Việt Nam như Kubernetes Vietnam, Google Cloud Next Extended. Anh đã có các chứng chỉ của Google Cloud như Google Cloud Architect và Data Engineer.

View all posts by Pham Van Tuyen →