Google Cloud Vision API là một công cụ rất mạnh có thể mang đến cho cuộc sống các khả năng ứng dụng vô tận khi kết hợp với thư viện Python. Vision API là mô hình được đào tạo trước của Google, giúp phát hiện các đối tượng, nhận dạng khuôn mặt, nhận dạng hình ảnh, phân loại, gán nhãn và trích xuất văn bản của văn bản in hoặc hình ảnh chữ viết tay. Ngoài các tính năng trên, Vision API còn một tính năng rất thực tế và thú vị đó là cho phép bạn phát hiện nội dung không lành mạnh của hình ảnh. Vision API cho phép các nhà phát triển tích hợp các tính năng thú vị vào các ứng dụng dễ dàng.
Trong bài viết này, mình giới thiệu cho các bạn một số tính năng hỗ trợ của Google Cloud Vision API trong ứng dụng machine learning. Nào chúng ta bắt đầu.
Các tính năng của Google Cloud Vision API
1. Hiển thị thông tin các thuộc tính của hình ảnh (Image attributes)
Phát hiện các thuộc tính cơ ban của hình ảnh, chẳng hạn như màu chủ đạo và gợi ý cắt xén – drop thích hợp.
2. Phát hiện khuôn mặt (Face detection)
Vision API có thể thực hiện phát hiện khuôn mặt trên các hình ảnh lưu trữ tại LOCAL hoặc URL. Các hàm DETECT_FACES và DETECT_FACES_URI có thể thực hiện phát hiện nhiều khuôn mặt trong một hình ảnh cùng với các thuộc tính khuôn mặt quan trọng như trạng thái cảm xúc và mũ nón.
3. Phát hiện nhãn (Detect labels)
Vision API có thể phát hiện và trích xuất thông tin về các thực thể trong một hình ảnh, trên một nhóm các danh mục. Nhãn có thể xác định các đối tượng chung, vị trí loại hoạt động, loài động vật, sản phẩm, v.v.
4. Nhận dạng ký tự quang học ( Optical Character Recognition (OCR))
Phát hiện và trích xuất văn bản từ hình ảnh. Các chú thích TEXT_DETMENT và DOCUMENT_TEXT_DETMENT hỗ trợ OCR.
5. Phát hiện Web (Web Detection)
Web Detection phát hiện các tham chiếu Web đến một hình ảnh. Tìm kiếm trên web cho nhãn gợi ý là tốt nhất.
6. Phát hiện nhiều đối tượng (Detect Multiple Objects)
Cloud Vision API có thể phát hiện và trích xuất nhiều đối tượng trong một hình ảnh bằng Object Localization, một mô-đun xác định thông tin về đối tượng, vị trí của đối tượng và giới hạn hình chữ nhật cho vùng của hình ảnh có chứa đối tượng.
7. Phát hiện nội dung khiêu dâm (Tìm kiếm an toàn) – Detect Explicit Content (Safe Search)
Phát hiện nội dung như nội dung người lớn hoặc nội dung bạo lực trong một hình ảnh. Tính năng này sử dụng năm loại (người lớn – adult, giả mạo -spoof, y tế – medical, bạo lực-violence và không phù hợp – racy) và trả về khả năng mỗi loại có mặt trong một hình ảnh nhất định.
Những thông tin trên hi vọng giúp ích cho các bạn về các khả năng mà Google Vision API trên nền tảng GCP có thể hỗ trợ được. Ở bài viết tiếp theo, chúng ta sẽ bắt tay vào demo một vài ví dụ nho nhỏ cho từng tính năng của Vision API.
Khi có chỗ nào chưa rõ, cần support, các bạn hãy liên hệ với các chuyên gia – Cloud Ace Việt Nam – để được hỗ trợ tốt hơn.
Nguồn:
cam on nha phat trien toi rat thich dieu nay