Dataprep là một sản phẩm của GCP để làm sạch dữ liệu, nó có tác dụng làm cho những dữ liệu chưa sạch trong kho dữ liệu lớn (bigdata) được làm sạch để trước khi đưa vào phân tích hoặc làm đầu vào cho những data flow khác. Dữ liệu chưa sạch được hiểu là d ...
Cloud Data Fusion là gì?
Đây là một sản phẩm trên GCP được ra mắt trong Google Cloud Next 2019 vừa qua với mục đích: Làm cho việc truy cập dữ liệu của bạn trên nền tảng GCP dễ dàng hơn. Tất cả bộ dữ liệu của bạn nằm trong một giao diện duy nhất.Mặc dù dữ liệu của bạn được l ...
Run PySpark trên Dataproc như thế nào?
Trước khi vào thực hiện thì mình cần tìm hiểu một số khái niệm liên quan. Hadoop là gì? Hadoop hay còn gọi là Apache Hadoop là một software framework hỗ trợ các ứng dụng phân tán dữ liệu chuyên sâu theo một giấy phép miễn phí. Nó cho phép các ứng d ...
Giới thiệu về Google Cloud Platform và các dịch vụ
I. Giới thiệu - Google Cloud Platform là nền tảng điện toán đám mây do Google cung cấp, với các dịch vụ máy ảo, lưu trữ, phân tích dữ liệu, cùng nhiều công nghệ tiên tiến khác. - Google Cloud được hỗ trợ, củng cố và đổi mới bởi một cơ sở hạ tầng các sản ...
Hướng dẫn tạo Dataproc Cluster và chạy thử Spark Cluster trên GCP Cloud Dataproc
1. Tạo Cluster Dataproc 1.1 Click vào menu di chuyển tới Dataproc và click vào Clusters 1.2 Click vào button Create Cluster 1.3 Cấu hình Cluster Đặt tên cho ClusterChọn Machine type cụ thể cho Master node và kích thước ổ đĩa chính. Chọn M ...
GCP Cloud Dataproc
Cloud Dataproc là gì ? Google Cloud Dataproc là dịch vụ nhanh, dể sử dụng, giá thành thấp và quản lý toàn bộ giúp bạn chạy Spark và Hadoop ở Google Cloud Platform. Uu điểm của Google Cloud Dataproc Cloud-native Apache Hadoop & Apache Spark Cloud Datap ...