Cloud Dataproc là gì ?
Google Cloud Dataproc là dịch vụ nhanh, dể sử dụng, giá thành thấp và quản lý toàn bộ giúp bạn chạy Spark và Hadoop ở Google Cloud Platform.
Uu điểm của Google Cloud Dataproc
Cloud-native Apache Hadoop & Apache Spark
Cloud Dataproc là một dịch vụ đám mây nhanh chóng, dễ sử dụng, được quản lý hoàn toàn để chạy Apache Spark và Apache Hadoop một cách đơn giản với chi phí tiết kiệm. Các hoạt động có thể mất vài giờ hoặc vài ngày, vài phút hoặc vài giây và bạn chỉ chi trả cho những gì bạn sử dụng.
Cloud Dataproc cũng dễ dàng tích hợp với các dịch vụ Google Cloud Platform khác, cung cấp cho bạn nền tảng mạnh mẽ và hoàn chỉnh để xử lý dữ liệu, analytics và machine learning.
Fast & Scalable Data Processing
Tạo Cluster Cloud Dataproc nhanh chóng và thay đổi kích thước chúng bất kỳ lúc nào, vì vậy bạn không phải lo lắng về data pipeline của bạn vượt quá các Cluster của bạn. Với mỗi Cluster cần ít hơn 90s để hành động, bạn sẽ có nhiều thời gian hơn để tập trung vào thông tin chi tiết mà không tốn thời gian cho cơ sở hạ tận.
Giá cả phải chăng
Áp dụng nguyên tắc định giá của Google Cloud Platform, Cloud Dataproc có chi phí thấp và cấu trúc giá dễ hiểu, dựa trên mức sử dụng thực tế, được tính theo giây. Ngoài ra Cluster Cloud Dataproc có thể bao gồm các instances giá rẽ để cho bạn các Cluster mạnh mẽ với tổng chi phí thấp hơn.
Hệ sinh thái mã nguồn mở
Hệ sinh thái Spark và Hadoop cung cấp các công cụ, thư viện và tài liệu mà bạn có thể tận dụng với Cloud Dataproc. Bằng cách cung cấp các phiên bản cập nhật thường xuyên của Spark, Hadoop, Pig và Hive, bạn có thể bắt đầu mà không cần phải tìm hiểu các công cụ hoặc API mới .Bạn có thể di chuyển các dự án hiện tại hoặc ETL pipeline mà không cần phát triển lại.
Các chức năng của Cloud Dataproc
Quản lý Cluster tự động
Quản lý triển khai, logging và monitoring cho phép bạn tập trung vào data mà không cần phải lo về các Cluster của bạn. Các Cluster của bạn luôn ổn định và có thể mở rộng nhanh chóng.
Các Cluster có thể được mở rộng
Các Cluster của bạn có thể được mở rộng hoặc thu hẹp một cách nhanh chóng với nhiều loại máy ảo, kích thước đĩa, số nược node và tùy chọn networking.
Integrated
Tích hợp với Cloud Storage, BigQuery, Cloud Bigtable, Stackdriver Logging và Stackdriver Monitoring, cung cấp cho bạn một nền tảng hoàn chỉnh và mạnh mẽ.
Versioning
Image versioning cho phép bạn chuyển đổi version giữa các phiên bản của Apache Spark, Apache hadoop và các công cụ khác.
Khả dụng cao
Chạy các Cluster với nhiều master nodes và đặt jobs ở chế độ khởi động lại khi thất bại để đảm bảo Cluster và jobs luôn khả dụng.
Developer Tools
Nhiều cách để quản lý một Cluster, bao gồm giao diện người dùng web dễ sử dụng, Google Cloud SDK, API RESTful và truy cập SSH.
Initialization Actions
Chạy Initialization Actions để cài hoặc tinh chỉnh các cấu hình và thư viện bạn cần khi tạo Cluster của bạn.
Cấu hình tự động hoặc thủ công
Cloud Dataproc tự động định cấu hình phần cứng và phần mềm trên các Cluster cho bạn theo đó cũng cho phép cấu hình thủ công.
Flexible Virtual Machines
Các Cluster có thể sử dụng các loại máy tùy chỉnh và các máy ảo được ưu tiên để chúng có kích thước hoàn hảo cho nhu cầu của bạn.