October 18, 2021

GCP Cloud Dataproc

Cloud Dataproc là gì ?

Google Cloud Dataproc là dịch vụ nhanh, dể sử dụng, giá thành thấp và quản lý toàn bộ giúp bạn chạy Spark và Hadoop ở Google Cloud Platform.

Uu điểm của Google Cloud Dataproc

Cloud-native Apache Hadoop & Apache Spark

Cloud Dataproc là một dịch vụ đám mây nhanh chóng, dễ sử dụng, được quản lý hoàn toàn để chạy Apache Spark và Apache Hadoop một cách đơn giản với chi phí tiết kiệm. Các hoạt động có thể mất vài giờ hoặc vài ngày, vài phút hoặc vài giây và bạn chỉ chi trả cho những gì bạn sử dụng.
Cloud Dataproc cũng dễ dàng tích hợp với các dịch vụ Google Cloud Platform khác, cung cấp cho bạn nền tảng mạnh mẽ và hoàn chỉnh để xử lý dữ liệu, analytics và machine learning.

Fast & Scalable Data Processing

Tạo Cluster Cloud Dataproc nhanh chóng và thay đổi kích thước chúng bất kỳ lúc nào, vì vậy bạn không phải lo lắng về data pipeline của bạn vượt quá các Cluster của bạn. Với mỗi Cluster cần ít hơn 90s để hành động, bạn sẽ có nhiều thời gian hơn để tập trung vào thông tin chi tiết mà không tốn thời gian cho cơ sở hạ tận.

Giá cả phải chăng

Áp dụng nguyên tắc định giá của Google Cloud Platform, Cloud Dataproc có chi phí thấp và cấu trúc giá dễ hiểu, dựa trên mức sử dụng thực tế, được tính theo giây. Ngoài ra Cluster Cloud Dataproc có thể bao gồm các instances giá rẽ để cho bạn các Cluster mạnh mẽ với tổng chi phí thấp hơn.

Hệ sinh thái mã nguồn mở

Hệ sinh thái Spark và Hadoop cung cấp các công cụ, thư viện và tài liệu mà bạn có thể tận dụng với Cloud Dataproc. Bằng cách cung cấp các phiên bản cập nhật thường xuyên của Spark, Hadoop, Pig và Hive, bạn có thể bắt đầu mà không cần phải tìm hiểu các công cụ hoặc API mới .Bạn có thể di chuyển các dự án hiện tại hoặc ETL pipeline mà không cần phát triển lại.

Các chức năng của Cloud Dataproc

Quản lý Cluster tự động

Quản lý triển khai, logging và monitoring cho phép bạn tập trung vào data mà không cần phải lo về các Cluster của bạn. Các Cluster của bạn luôn ổn định và có thể mở rộng nhanh chóng.

Các Cluster có thể được mở rộng

Các Cluster của bạn có thể được mở rộng hoặc thu hẹp một cách nhanh chóng với nhiều loại máy ảo, kích thước đĩa, số nược node và tùy chọn networking.

Integrated

Tích hợp với Cloud Storage, BigQuery, Cloud Bigtable, Stackdriver Logging và Stackdriver Monitoring, cung cấp cho bạn một nền tảng hoàn chỉnh và mạnh mẽ.

Versioning

Image versioning cho phép bạn chuyển đổi version giữa các phiên bản của Apache Spark, Apache hadoop và các công cụ khác.

Khả dụng cao

Chạy các Cluster với nhiều master nodes và đặt jobs ở chế độ khởi động lại khi thất bại để đảm bảo Cluster và jobs luôn khả dụng.

Developer Tools

Nhiều cách để quản lý một Cluster, bao gồm giao diện người dùng web dễ sử dụng, Google Cloud SDK, API RESTful và truy cập SSH.

Initialization Actions

Chạy Initialization Actions để cài hoặc tinh chỉnh các cấu hình và thư viện bạn cần khi tạo Cluster của bạn.

Cấu hình tự động hoặc thủ công

Cloud Dataproc tự động định cấu hình phần cứng và phần mềm trên các Cluster cho bạn theo đó cũng cho phép cấu hình thủ công.

Flexible Virtual Machines

Các Cluster có thể sử dụng các loại máy tùy chỉnh và các máy ảo được ưu tiên để chúng có kích thước hoàn hảo cho nhu cầu của bạn.

Pham Van Tuyen

Anh Tuyen Pham là Tổng giám đốc của Cloud Ace Việt Nam và là GDG Cloud HCM Chapter Lead. Anh là diễn giả quen thuộc tại các sự kiện do Google tổ chức tại Việt Nam như Kubernetes Vietnam, Google Cloud Next Extended. Anh đã có các chứng chỉ của Google Cloud như Google Cloud Architect và Data Engineer.

View all posts by Pham Van Tuyen →