October 20, 2021

Xây dựng Warehouse quy mô Petabyte trong BigQuery

Đây là một đề tài mà trong sự kiện Google Cloud Next 2018 dành một session để trình diễn khả năng của của BigQuery mang lại, bên cạnh đó cũng điểm qua về các case study thực tế mà BigQuery thực sự thể hiện rõ hơn năng lực của mình cho doanh nghiệp.

 Trước khi đi vào chi tiết, chúng ta hãy tìm hiểu cơ bản về lịch sử BigQuery để có khung nhìn tổng thể về nó và cách thức mà nó mang lại giá trị.

BigQuery là một dịch vụ của Google Cloud Platform, cho phép phân tích tương tác các tập dữ liệu khổng lồ hoạt động cùng với Google Storage bằng cách dùng các câu lệnh truy vấn chuẩn SQL. Nếu xét ở kiến trúc cloud computing, nó được xem là (IaaS) – cơ sở hạ tầng như một dịch vụ.

Sau giai đoạn thử nghiệm trong năm 2010, BigQuery đã chính thức sẵn sàng sử dụng vào năm 2011 tại hội nghị Google Atmosphere. Các tính năng cơ bản của BigQuery:

  • Managing data: quản lý hệ thống database
  • Query : truy vấn SQL để lấy dữ liệu
  • Integration: Có thể tích hợp vào các công cụ khác như: data studio, google analytic, google sheets,…
  • Access control: có thể share data cho các ứng dụng, cá nhân, nhóm đối tượng truy xuất và sử dụng.

Hiện nay, BigQuery là một sản phẩm thuần cloud, được cung cấp cho người dùng với hình thức serverless (được hiểu như dịch vụ không cần quan tâm nữa đến khả năng xử lý và lưu trữ) có khả năng scale và mở rộng linh hoạt, khả năng xử lý truy vấn đến hàng Petabyte. Vì thế BigQuery được ví von như là dịch vụ được sinh ra chỉ để mở rộng.

Case study:

Nicole Bouchard – Quản lý sản phẩm kỹ thuật của công ty nghe nhạc trực tuyến hàng đầu thế giới Spotify chia sẻ về câu chuyện áp dụng BigQuery vào hệ thống quản lý dữ liệu của công ty. Cách đây khoảng 4 năm với hạ tầng tương đối lớn nằm rải rác ở thế giới, chủ yếu ở dạng on-premise:

  • 2,500 nodes
  • Hadoop với gần 10,000 server

Spotify muốn mở rộng nhanh chóng ở Mỹ, thời điểm đó họ quyết định sử dụng giải pháp BigQuery. Sau đó, họ thực sự xác nhận đó là một thành công lớn, ví dụ một trường hợp điển hình: Muốn biết được người dùng ở Tây Ban Nha dành bao nhiêu thời gian để nghe nhạc trên Spotify?

  •  Với hive xử lý trong cụm hadoop truyền thống, mất 16 phút để xử lý.
  • Khi app dụng BigQuery, chỉ tốn 33 giây.

Cũng với Spotify , 2 kỹ sư của Twitter cũng có chia sẽ về câu chuyện kỹ thuật của họ liên quan đến BigQuery. Vấn đề thách thức với họ là thực tế, mỗi ngày có 10 tỷ sự kiện quảng cáo được diễn ra. Hệ thống Twitter đã bắt đầu hiển thị các quảng cáo sai cho người dùng, dẫn đến hệ lụy không mong muốn là hiệu quả kinh doanh. Vì thế họ muốn trích lọc các thông tin cần thiết trong hệ thống database MySQL. Vấn đề cần giải quyết là đây, hệ thống MySQL của họ không hề nhỏ tí nào:

  • 3,2 tỷ dòng với 1,31 TB dữ liệu. Với 4 kỹ sư, 1 DBA thời gian xử lý mất 2 tuần….
  • Với BigQuery và SQL, chỉ mất dưới 1 phút để có thể xử lý lượng dữ liệu đó.

Trên đây là 2 case điển hình cho việc áp dụng BigQuery để giải quyết bài toán không hề đơn giản tí nào cho một câu hỏi rất là thông thường. Như đã đề cập ban đầu, BigQuery là serverless, khả năng mở rộng là một thế mạnh không thể phủ nhận, đặc biệt nó càng thể hiện rõ giá trị to lớn mang lại khi mà sự bùng nổ về thông tin như ngày nay.

Bạn đọc có thể xem thêm về sản phẩm ở link sau:

https://cloud.google.com/bigquery/docs/

Pham Van Tuyen

Anh Tuyen Pham là Tổng giám đốc của Cloud Ace Việt Nam và là GDG Cloud HCM Chapter Lead. Anh là diễn giả quen thuộc tại các sự kiện do Google tổ chức tại Việt Nam như Kubernetes Vietnam, Google Cloud Next Extended. Anh đã có các chứng chỉ của Google Cloud như Google Cloud Architect và Data Engineer.

View all posts by Pham Van Tuyen →