Khám phá Google Cloud Vision API

Google Cloud Vision API là một công cụ rất mạnh có thể mang đến cho cuộc sống các khả năng ứng dụng vô tận khi kết hợp với thư viện Python. Vision API là mô hình được đào tạo trước của Google, giúp phát hiện các đối tượng, nhận dạng khuôn mặt, nhận dạng hình ảnh, phân loại, gán nhãn và trích xuất văn bản của văn bản in hoặc hình ảnh chữ viết tay. Ngoài các tính năng trên, Vision API còn một tính năng rất thực tế và thú vị đó là cho phép bạn phát hiện nội dung không lành mạnh của hình ảnh. Vision API cho phép các nhà phát triển tích hợp các tính năng thú vị vào các ứng dụng dễ dàng.

Trong bài viết này, mình giới thiệu cho các bạn một số tính năng hỗ trợ của Google Cloud Vision API trong ứng dụng machine learning. Nào chúng ta bắt đầu.

Các tính năng của Google Cloud Vision API

1. Hiển thị thông tin các thuộc tính của hình ảnh (Image attributes)

Phát hiện các thuộc tính cơ ban của hình ảnh, chẳng hạn như màu chủ đạo và gợi ý cắt xén – drop thích hợp.

Hình 1: Các thông tin cơ bản của hình ảnh được hiển thị bởi Vision API.

2. Phát hiện khuôn mặt (Face detection)

Vision API có thể thực hiện phát hiện khuôn mặt trên các hình ảnh lưu trữ tại LOCAL hoặc URL. Các hàm DETECT_FACES và DETECT_FACES_URI có thể thực hiện phát hiện nhiều khuôn mặt trong một hình ảnh cùng với các thuộc tính khuôn mặt quan trọng như trạng thái cảm xúc và mũ nón.

Hình 2: Kết quả phát hiện khuôn mặt của Vision API.

3. Phát hiện nhãn (Detect labels)

Vision API có thể phát hiện và trích xuất thông tin về các thực thể trong một hình ảnh, trên một nhóm các danh mục. Nhãn có thể xác định các đối tượng chung, vị trí loại hoạt động, loài động vật, sản phẩm, v.v.

Hình 3: Kết quả phát hiện nhãn bởi Vision API.

4. Nhận dạng ký tự quang học ( Optical Character Recognition (OCR))

Phát hiện và trích xuất văn bản từ hình ảnh. Các chú thích TEXT_DETMENT và DOCUMENT_TEXT_DETMENT hỗ trợ OCR.

Hình 4: Kết quả nhận dạng ký tự quang học bởi Vision API.

5. Phát hiện Web (Web Detection)

Web Detection phát hiện các tham chiếu Web đến một hình ảnh. Tìm kiếm trên web cho nhãn gợi ý là tốt nhất.

Hình 5: Kết quả phát hiện đối tượng trong ảnh và kết quả tìm kiếm trên Web của Vision API.

6. Phát hiện nhiều đối tượng (Detect Multiple Objects)

Cloud Vision API có thể phát hiện và trích xuất nhiều đối tượng trong một hình ảnh bằng Object Localization, một mô-đun xác định thông tin về đối tượng, vị trí của đối tượng và giới hạn hình chữ nhật cho vùng của hình ảnh có chứa đối tượng.

Hình 6: Kết quả phát hiện nhiều đối tượng. Mỗi đối tượng được bao bởi 1 hình chữ nhật màu vàng.

7. Phát hiện nội dung khiêu dâm (Tìm kiếm an toàn) – Detect Explicit Content (Safe Search)

Phát hiện nội dung như nội dung người lớn hoặc nội dung bạo lực trong một hình ảnh. Tính năng này sử dụng năm loại (người lớn – adult, giả mạo -spoof, y tế – medical, bạo lực-violence và không phù hợp – racy) và trả về khả năng mỗi loại có mặt trong một hình ảnh nhất định.

Hình 7: Kết quả phát hiện hình ảnh có nội dung lành mạnh bởi Vision API.

Những thông tin trên hi vọng giúp ích cho các bạn về các khả năng mà Google Vision API trên nền tảng GCP có thể hỗ trợ được. Ở bài viết tiếp theo, chúng ta sẽ bắt tay vào demo một vài ví dụ nho nhỏ cho từng tính năng của Vision API.

Khi có chỗ nào chưa rõ, cần support, các bạn hãy liên hệ với các chuyên gia – Cloud Ace Việt Nam – để được hỗ trợ tốt hơn.

Nguồn:

Post Views: 2.576

Technical Blog

Google Cloud Managed Service Provider