October 21, 2021

Hướng dẫn tạo và upload một xử lý Dataflow đơn giản bằng eclipse

1. Cài đặt gói hỗ trợ Dataflow

 

Work with : https://dl.google.com/dataflow/eclipse

Chọn gói Google Cloud Dataflow

2. Kiểm tra lại sau khi đã cài đặt

3. Khởi tạo 1 Storage Buckets để sử dụng cho dataflow.

Ở đây tôi sẽ tạo 1 Bucket tên dataflow-demo-2

4. Tạo một project dataflow

4.1 Tạo project Cloud Dataflow

4.2 Điền thông tin về project

4.2 Điền project-id trên google cloud của bạn và chọn Storage Buckets đã tạo ở bước trên.

4.3 Chờ eclipse tải về các gói tin cần thiết tạo project.

5. Mẫu Dataflow

6. Thực thi Dataflow ở local

Kết quả trả về

7. Thực thi trên dịch vụ dataflow

Ở Run Configuration Tab Pipeline Arguments mình chọn Runner ở DataflowRunner để thực trên dịch vụ Cloud Dataflow của google.

Ở phần Cloud Storage Staging Location. Lưu ý mình phải thêm thư mục thì mới thực thi được.

8. Xem các file đã up lên Storage Buckets

9. Dataflow Daskboard

Ở daskboard bạn có thể theo dõi tiến trình hoạt động của dataflow. Bằng cách click vào tên của tiến trình để xem chi tiết tiến trình của bạn.

Như vậy ta đã tạo 1 project dataflow và đưa lên services của google cloud
Happy coding.

Pham Van Tuyen

Anh Tuyen Pham là Tổng giám đốc của Cloud Ace Việt Nam và là GDG Cloud HCM Chapter Lead. Anh là diễn giả quen thuộc tại các sự kiện do Google tổ chức tại Việt Nam như Kubernetes Vietnam, Google Cloud Next Extended. Anh đã có các chứng chỉ của Google Cloud như Google Cloud Architect và Data Engineer.

View all posts by Pham Van Tuyen →