October 14, 2021

Hiểu về Data Lifecycle trên Google Cloud Platform

Là một công ty khởi nguồn từ data và lấy data làm kim chỉ nam cho gần như mọi hoạt động của mình, Google luôn đi đầu trong việc cung cấp các dịch vụ hỗ trợ khai phá và sử dụng data. Với Google Cloud Platform, bạn có thể làm được mọi thứ bạn muốn với data của mình. Hãy cùng tìm hiểu Data Lifecycle (vòng đời của dữ liệu) như thế nào trên GCP và cách lựa chọn những dịch vụ tốt nhất cho nhu cầu phân tích dữ liệu của bạn!

Trước hết, Data Lifecycle có 4 giai đoạn:

  1. Thu thập (Ingest)
    Tuỳ theo mục đích, bạn thu thập dữ liệu từ các cảm biến (IoT), từ tương tác của người dùng trên web, ứng dụng di động. Dữ liệu trong giai đoạn này còn đuoạc gọi là dữ liệu thô (raw data).
  2. Lưu trữ (Store)
    Lưu trữ sao cho có thể sử dụng một cách hiệu quả nhất.
  3. Xử lý & Phân tích (Process and analyze)
    Bằng kĩ thuật hay quy trình nào đó, “hô biến” dữ liệu thô thành dữ liệu có ích tuỳ theo mục đích.
  4. Mô tả (Explore and visualize)
    Vẽ biểu đồ, bảng theo dõi… là những việc cần làm trong giai đoạn này. Bạn biến những con số phức tạp thành thứ gì đó đơn giản, dễ hiểu sao cho bất cứ ai nhìn vào cũng có thể hiểu đưọc ý nghĩa bạn muốn truyền đạt.

Ở mỗi giai đoạn, GCP có những dịch vụ tương ứng như sau:

Quá đầy đủ và chi tiết phải không nào! Làm sao lựa chọn? Để dễ hiểu và thực tế hơn, mình sẽ trình bày theo một case study khá phổ biến hiện giờ: Phát triển ứng dụng di động bán hàng online cần hệ thống gợi ý sản phẩm cho từng khách hàng.

1- Thu thập dữ liệu

  • App Engine: bộ não ứng dụng của bạn nằm ở đây, với khả năng auto-scale ưu việt
  • Stackdriver Logging: mỗi khi người dùng tương tác gọi request lên server, lập tức log sẽ đưọc ghi lại. Ngoài tracking in-app, thì dữ liệu log cũng là một loại tracking gần-như-bắt-buộc-phải-có: đơn giản, dễ sử dụng, không cần cấu hình nhiều. Sau này, bạn có thể sử dụng để biết những thông tin vô cùng quý giá như: người dùng xem sản phẩm tới trang nào thì dừng lại? 2 phiên bản test A/B vừa đưọc tung ra, phiên bản nào đưọc đón nhận nhiều hơn?

2- Lưu trữ dữ liệu

  • Cloud Storage: hình ảnh sản phẩm, avatar của user…
  • Cloud SQL: database chính của ứng dụng, lưu trữ thông tin khách hàng, sản phẩm… Hỗ trợ transaction cho hoạt động đặt hàng, bán hàng…
  • BigQuery: data warehouse. Nơi lưu trữ dữ liệu log, dữ liệu tracking của bạn.
    (Ở case study này, bởi vì bạn tập trung vào việc sử dụng dữ liệu hiệu quả do đó khuyến nghị bạn dùng Cloud Storage và BigQuery, còn ở các trường hợp khác ứng dụng di động của bạn có thể cân nhắc sử dụng Firestore)

3- Xử lý & Phân tích

  • Cloud Dataflow: Tổng hợp dữ liệu từ Cloud SQL đưa lên BigQuery. Đọc dữ liệu từ BigQuery để phân tích. Trong trưòng hợp này bạn đưa dữ liệu bán hàng, tương tác của user lên BigQuery, sau đó phân tích dữ liệu này cũng các tracking khác để hoàn thiện hệ thống gợi ý sản phẩm của mình.
  • Cloud Dataprep: Xử lý tiền dữ liệu: loại bỏ dữ liệu không hợp lệ, dữ liệu bị trùng. Ví dụ như user bị thiếu thông tin hay trùng thông tin, hoạc thông tin có kí tự đặc biệt cần đưa về định dạng khác phù hợp hơn…
  • Cloud Vision API: Dùng hỗ trợ quy trình tự động gợi ý. Bạn đưa 1 hình sản phẩm vào, hệ thống sẽ tự động xác đinh sản phẩm đó thuộc danh mục nào, tương ứng với nhóm sản phẩm nào đã phân loại được, từ đó mới đẩy đến user tương ứng có thể thích sản phẩm mới này. Rất tuyệt phải không nào!
  • Cloud ML: Phân tích và tìm ra những user spam: đặt hàng liên tục, đặt hàng nhiều mà không nhận hàng,…

4- Mô tả

  • Data Studio: Đơn giản là kết nối với table hoặc view từ MySQL hoặc BigQuery rồi chọn biểu đồ bạn muốn. Dữ liệu được cập nhật real time lên biểu đồ! Hoặc bạn có file danh sách khác hàng tiềm năng lưu ở Cloud Storage, chỉ cần kết nối file đó với Data Studio bạn sẽ thấy ngay đâu là khách hàng tiềm năng nhất của bạn!

Trên đây chỉ là một trong những case study phổ biến để giúp các bạn hiểu rõ hơn về cách sử dụng các dịch vụ trên GCP tương ứng với Data Lifecycle. Còn nhiều case study nữa sẽ tiếp tục đưọc cập nhật trong thời gian tới. Hãy đón xem nhé!

Hieu

Hiếu hiện là Cloud Developer - Data Analyst của Cloud Ace Vietnam. Anh đã có chứng chỉ Data Engineer của Google Cloud, với hơn 3 năm phát triển ứng dụng thương mại điện tử trên Google Cloud Platform và kinh nghiệm về xây dựng hệ thống lưu trữ, phân tích dữ liệu trên cloud.

View all posts by Hieu →