October 17, 2021
Hình 3: Sơ đồ thực hiện trên Cloud Data Fusion làm sạch, biến đổi và xử lý dữ liệu khách hàng và lựa chọn ra những ứng viên cho mục tiêu chiến lược.

Cloud Data Fusion là gì?

Đây là một sản phẩm trên GCP được ra mắt trong Google Cloud Next 2019 vừa qua với mục đích:

  • Làm cho việc truy cập dữ liệu của bạn trên nền tảng GCP dễ dàng hơn. Tất cả bộ dữ liệu của bạn nằm trong một giao diện duy nhất.
  • Mặc dù dữ liệu của bạn được lưu trữ trên các dịch vụ cloud khác nhau nhưng bạn có thể xem nó từ giao diện của Cloud Data Fusion.
  • Làm sạch (clean), vận chuyển (transfer) và biến đổi (transform) dữ liệu mà không cần phải lo lắng về cơ sở hạ tầng.

Data Fusion lowers the barrier to entry for big data work by providing an intuitive visual interface and pipeline abstraction. This increased accessibility, combined with a growing collection of pre-built ‘connectors’ and transformations, translates to rapid results and in many cases allows data analysts and scientists to ‘self-serve’ without needing help from those with deep cloud or software engineering expertise

Robert Medeiros, R&D Architect, TELUS Digital

Cloud Data Fusion cung cấp cho người dùng giao diện đơn giản – dễ sử dụng: kéo thả các sản phẩm dịch vụ khác – giống như kéo thả các component trong window form vậy đó !!!. Việc kéo thả này sẽ làm giảm tối đa thời gian ngồi mò mẫn- switch qua lại các giao diện … nhưng vẫn đảm bảo được kết quả mong muốn của người dùng.

Hình 1: Giao điện đơn giản của Data Fusion

Với Cloud Data Fusion, người dùng có thể dễ dàng xây dựng được ứng dụng đáng tin cậy với các giải pháp tích hợp dữ liệu có thể mở rộng, làm sạch (clean), vận chuyển (transfer) và biến đổi (transform) dữ liệu mà không cần phải lo lắng về cơ sở hạ tầng.

HÌnh 2: Dễ dàng truy cập vào BigQuery hoặc các dịch vụ khác từ giao diện của Data Fusion.
HÌnh 2: Dễ dàng truy cập vào BigQuery hoặc các dịch vụ khác từ giao diện của Data Fusion.

Cloud Data Fusion được xây dựng trên dự án mã nguồn mở CDAP và đó là một lõi mở (open core) đảm bảo tính linh động của xử lý dữ liệu song song của người dùng. CDAP tích hợp được trên nền tảng điện toán đám mây tại chỗ (on-premises) hoặc điện toán đám mây công cộng (on-demand).

Hình 3: Sơ đồ thực hiện trên Cloud Data Fusion làm sạch, biến đổi và xử lý dữ liệu khách hàng và lựa chọn ra những ứng viên cho mục tiêu chiến lược.

Cloud Data Fusion tạo ra môi trường để chạy các ứng dụng pipline thủ công hoặc đặt lịch tự động kích hoạt ứng dụng pipline. Trong phiên bản bêta này, Cloud Data Fusion hỗ trợ Cloud Dataproc như là môi trường thực thi. Trong đó, bạn có thể chọn chạy pipeline như các chương trình như MapReduce, Spark hoặc Spark Streaming. Cloud Data Fusion cung cấp một cụm Cloud Dataproc phù hợp trong dự án khách hàng của bạn khi bắt đầu chạy đường ống, thực hiện đường ống bằng MapReduce hoặc Spark trong cụm, sau đó thu hồi cụm sau khi hoàn thành quá trình thực hiện đường ống.

Hình 4: Pipeline dữ liệu với Spark hoặc MapReduce.
Hình 4: Pipeline dữ liệu với Spark hoặc MapReduce.

Đây là một dịch vụ theo mình thấy nó rất hay, gom các data source về một mối , thay vì đang thao tác trên Cloud Pub/sub nhưng muốn xem dữ liệu trên BigQuery thì mình lại đi mò mẫn qua lại màn hình chính của BigQuery, tốn khá nhiều thời gian.

Với bài viết này, hy vọng chúng ta có thêm kiến thức về một sản phẩm nữa của GCP. Khi thực hành có chỗ nào chưa hiểu, cần support, các bạn hãy liên hệ với các chuyên gia – Cloud Ace Việt Nam – để được hỗ trợ tốt hơn.

Liên hệ ngay với chúng tôi, Cloud Ace Việt Nam để được tư vấn về G Suite, Google Cloud Platform (GCP).

Bao Vuong

Vương hiện là Cloud Engineer của Cloud Ace Vietnam.+6 năm kinh nghiệm phát triển backend +2 năm kinh nghiệm Data Analytics +1 năm kinh nghiệm Machine Learning

View all posts by Bao Vuong →