October 21, 2021
Dataprep Icon of Google Cloud Platform

Hướng dẫn sử dụng Dataprep trên GCP

Trong bài này tôi sẽ giới thiệu về Dataprep trên GCP. Cloud Dataprep là công cụ dịch vụ phân tích, rút trích dữ liệu trên Data Warehouse được gắn kết vào GCP.  Cloud Dataprep sẽ tự động giản nở cấu hình khi xử lý phân tích. Dữ liệu data warehouse là rất lớn sử dụng Cloud Dataprep không phải lo lắng về tốc độ xử lý vì nó rất nhanh. Để thấy được Cloud Dataprep thế nào thì chúng ta sẽ tiến hành từng bước nhé:

Bước 1: Bạn phải có tài khoản account từ GCP nếu chưa có bạn phải đăng ký. Bạn xem lại bài đăng ký tài khoản account dùng với GCP nhé.

Bước 2: Từ trình duyệt bạn gõ https://clouddataprep.com nó sẽ yêu cần bạn login

Bước 3: Bạn login vào GCP tài khoản acount và pass của bạn đã đăng ký với GCP:

và màn hình password:

Bước 4: Sau khi bạn login thành công thì nó sẽ mở ra màn hình Cloud Dataprep và yêu cầu bạn 1 màn hình để cho phép  tùy chỉnh BigQuery và Cloud storage để chạy Cloud Dataflow hình như sau:

Chờ 1 vài giây hệ thống xử lý sau khi nhấn nút Allow

Tiếp theo hệ thống sẽ mở ra 1 màn hình yêu cầu bạn nhấn nút Allow cho phép truy xuất như hình:

Tiếp theo nó sẽ  mở 1 màn hình kế tiếp và yêu cầu bạn gõ hay chọn đường dẫn save file upload hay sau khi xử lý Cloud Dataprep trên Cloud Storage hình:

Sau khi chọn đường dẫn nhất nút Continue

Tiếp theo nó sẽ mở màn hình chính Cloud Dataprep, tại đây có 1 màn hình nhỏ nhắc bạn click nút Next như hình:

Tiếp theo nó sẽ mở ra màn hình chính tại đây bạn nhấn nút Create Flow như hình:

Tiếp theo nó sẽ mở ra màn hình:

Bạn tiến hành điền đầy đủ thông tin theo hình và click nút Create nó sẽ mở ra màn hình:

Bạn click vào nút Add Datasets nó sẽ mở ra màn hình:

Tại màn hình này bạn click vào nút Import Datasets nó sẽ mở ra màn hình:

Tại màn hình trên bạn có nhiều cách add data như có thể click Upload, Click GCS ( Cloud Storage ) , Click BigQuery.  Tôi sẽ dùng upload file click vào đây chọn Choose a file nó sẽ mở ra màn hình để lựa chọn file trong máy local như hình:

Tiến hành click nút Open nó sẽ xử lý các file đã chọn vào trong màn hình chính như hình:

Bước 5:

Tại màn hình Trên bạn click nút Import & add to Flow nó sẽ mở ra màn hình:

Đây là màn hình chính xử lý Cloud Dataprep những gì bạn muốn rút trích là tại màn hình này. Bây giờ bạn muốn review xem file nào thì active file đó bên trái và click vào vùng bên phải như hình để review file, bạn muốn rút trích xử lý file nào thì tại vùng bên trái màn hình bạn click vào icon có dấu + như hình. Còn nếu muốn add thêm công thức xử lý thì nhấn nút Add new Recipe.

Tôi sẽ chỉnh sửa dữ liệu rút trích file đầu tiên, tôi click vào icon + kế bên của file, nó sẽ sinh ra 1 file như tên file bên trái Icon +  tôi chọn nút Edit Recipe như hình:

và cứ thế bạn có thể tiến hành rút trích những gì bạn muốn lấy thông tin từ dữ liệu đưa vào, bạn có thể liên kết key giữa file này với file khác trong các file lại với nhau để lấy dữ liệu quan hệ mong muốn vv… có nhiều cách để bạn xử lý trên màn hình này mà tôi không thể nào chỉ hết được. Bây giờ tôi tiếp tục từ màn hình trên tôi click nút Edit Recipe để xử lý nó sẽ mở ra màn hình:

Tại màn hình này tôi sẽ giải thích ý nghĩa từng nút trên màn hình:

  • Nút Grid là sẽ hiểu thị dữ liệu theo dạng Grid, tôi đang ở dạng Grid
  • Nút Column là chọn nó  cho theo dạng cột
  • Text Find column là nhập tên cột cần tìm nếu file có nhiều cột
  • Filters là tìm kiếm dữ liệu của file
  • Run job là chạy xử lý. Nếu bạn click nút này là hệ thống sẽ xử lý dữ liệu ngay
  • Nếu bạn muốn xóa bớt cột thì giữ nút CTRL và click vào tên cột sau đó bên phải click nút add để xóa

Bây giờ tôi tiến hành xóa bớt cột trong file này hình như sau:

Từ màn hình trên tôi sẽ chọn các cột muốn xóa và tôi nhấn nút Add, còn nếu tôi muốn chỉnh sửa cột thì tôi nhấn nút Edit. Bây giờ Tôi nhấn nút Add để xóa bớt cột, nó sẽ còn lại các cột như hình:

Tại màn hình trên tôi tiến hành loại bỏ bới dòng dữ liệu nào theo hệ thống tính toán thì tôi chọn vào khung đỏ như hình và nhấn nút Add bên phải để xóa dòng, còn tôi muốn chỉnh sửa dòng thì tôi chọn nút Edit. Bây giờ tôi chọn loại bỏ bới dữ liệu theo dòng mà hệ thống tính toán tôi nhấn nút Add. Lúc này bạn không muốn rút trích, xử lý cho file này nữa thì bạn quay về màn hình chính để xử lý các file còn lại, có nhiều công thức rút trích hệ thống hỗ trợ Cloud Dataprep để bạn xử lý. Để quay về màn hình chính nhấn nút Tutorial – 3 như hình:

Nó sẽ quay về màn hình chính như hình để làm tiếp rút trích dữ liệu nếu còn tiếp tục :

Từ màn hình trên nó lại quay lại màn hình ở Bước 5. Bạn tiếp tục xử lý rút trích và thao tác tương tự như mô tả trên xuống dưới cho đến khi có kết quả rút trích dữ liêu mong muốn thì bạn tiến hành nhất nút Run job để hệ thống  xử lý dữ liệu như hình:

Tại màn hình này Final Output là kết quả cuối cùng bạn sẽ nhận được sau khi nhấn nút Run job hệ thống sẽ xử lý theo Cloud Dataflow, khi sử lý bạn cũng có thể review lại lịch sử những gì xử lý từng file mà bạn thao tác trên hệ thống:

Màn hình xem trên GCP Web UI

màn hình xem trên Cloud Dataprep Web UI như hình:

Sau khi xử lý xong thì bạn có thể xem kết quả rút trích bạn click vào nút như hình nó sẽ mở ra màn hình:

Tại màn hình trên bạn xem file dữ liệu kết quả bằng cách click vào dòng Cloud Storage link kế bên như hình trên,

Bạn muốn khởi tạo file kết quả này lưu trong Cloud Storage thì bạn click vào nút Create, sau đó nhấn nút Ok nó sẽ mở ra màn hình:

Bạn click vào Datasets thì sẽ có màn hình như trên và file bạn khởi tạo sẽ lưu vào Cloud Storage sau khi xử lý Cloud Dataprep. Bạn muốn review kết quả của file thì nó sẽ mỡ ra màn hình:

và file kết quả đã download về local hình:

Đến đây tôi đã hưởng dẫn bạn xong thao tác Cloud Dataprep để xử lý rút trích dữ liệu trên GCP, dử liệu rút trích được bạn có thể áp dụng vào kinh doanh của bạn tùy vào mục đích xử lý rút trích của bạn trên Cloud Dataprep.

****************Het****************

thank you very much to watch it

Pham Van Tuyen

Anh Tuyen Pham là Tổng giám đốc của Cloud Ace Việt Nam và là GDG Cloud HCM Chapter Lead. Anh là diễn giả quen thuộc tại các sự kiện do Google tổ chức tại Việt Nam như Kubernetes Vietnam, Google Cloud Next Extended. Anh đã có các chứng chỉ của Google Cloud như Google Cloud Architect và Data Engineer.

View all posts by Pham Van Tuyen →