Google vừa tung ra sản phẩm dùng để chuyển đổi văn bản sang giọng nói “Cloud Text-to-Speech” trên nền tảng Google Cloud Platform vào ngày 27/3 vừa qua.
Giọng nói trong bộ API này đang được sử dụng trên Google Assistant và chức năng chỉ đường của Google Map. Bộ API này sẽ giúp các lập trình viên dễ dàng hơn trong việc xây dựng các ứng dụng cần phải tổng hợp giọng nói, hay các ứng dụng đọc văn bản bằng ngôn ngữ tự nhiên.
Cloud Text-to-Speech sử dụng “WaveNet” – công nghệ giọng nói được phát triển bởi DeepMind, giúp các nhà phát triển có thể xây dựng các sản phẩm như:
・Hệ thống tương tác tự động bằng lời thoại cho các Call Center (Interactive Voice Response, IVR)
・Chức năng Talkback của các sản phẩm IoT (TV, ô tô, robot…)
・Chuyển đổi nội dung văn bản (tin tức, sách…) sang giọng nói (Podcast, Audiobook…)
Cloud Text-to-Speech có thể triển khai với 12 ngôn ngữ (không có tiếng Việt), bao gồm 32 kiểu giọng nói khác nhau. Ngoài ra, nhà phát triển có thể tuỳ chỉnh âm lượng, tốc độ nói, định dạng âm thanh (MP3, WAV) theo nhu cầu sử dụng.
Nội dung chi tiết về Cloud Text-to-Speech bạn đọc tham khảo trong API Documentation và Price List này. Thông tin chung các bạn tham khảo trong trang Cloud Text-to-Speech của GCP.
Ngoài ra, các bạn có thể tham khảo thêm thông tin liên quan trên Google Cloud Platform Blog về Introducing Cloud Text-to-Speech powered by DeepMind WaveNet technology