Những nhà nghiên cứu của Google đang tiến hành các thử nghiệm trên máy tính mô phỏng theo “hiệu ứng Bữa tiệc cocktail” (cocktail party effect). Nhóm nghiên cứu này đã xây dựng và phát triển hệ thống IT cho ứng dụng Deep Learning được thiết kế để hỗ trợ máy tính nhận dạng và cô lập giọng nói từng cá nhân trong một môi trường đầy tiếng ồn.

Google apps on Android phone

Như đã được đưa tin trên blog của Google research, nhiều team thuộc những gã khổng lồ công nghệ đã nỗ lực mô phỏng hiệu ứng “Bữa tiệc cocktail” thông qua những thử nghiệm đánh giá khả năng tập trung vào một nguồn âm thanh của bộ não con người đồng thời với lọc những loại âm thanh khác. Một trong số thí nghiệm điển hình được thực hiện tại các bữa tiệc, nhóm nghiên cứu tiến hành tách giọng nói của một người nhất định khi họ đang trò chuyện với những người bạn khác.

Phương pháp của Goolgle là sử dụng công cụ nghe-nhìn, phương pháp này chủ yếu tập trung vào việc tách nhiều âm thanh trong những đoạn video. Công ty cũng đã đăng rất nhiều video trên Youtube để người dùng có thể hình dung được công nghệ này trong thực tiễn.

Công ty chỉ ra rằng công nghệ này hoạt động trên những đoạn video có một loại âm thanh duy nhất. Bằng cách này, họ có thể tách giọng nói bằng thuật toán video tùy thuộc vào việc ai là người đang nói hoặc họ sẽ chọn một người dùng ngẫu nhiên để họ nhận dạng khuôn mặt của người có giọng nói mà họ muốn nghe.

Screen-Shot-2018-04-13-at-1.46.41-PM

Theo Google, hình ảnh là yếu tố cốt lõi, điều này được lí giải khi giải pháp mới này quan sát cử chỉ miệng để có thể nhận dạng được giọng nói và từ đó tập trung vào giọng nói đó để tạo ra những đoạn phát biểu chính xác hơn trong các video có độ dài khác nhau.

Những nhà nghiên cứu đã phát triển mô hình này bằng cách thu thập 100,000 video bài giảng trên Youtube, giải nén được gần 2,000 giờ từ các bài giảng đó và sau đó trộn các âm thanh lại với nhau và cùng với những loại tiếng ồn nhân tạo được thêm vào để tạo ra một “bữa tiệc cocktail tổng hợp”.

Những kĩ sư Google sau đó chia nhỏ hỗn hợp âm thanh bằng cách đọc hiểu “hình ảnh gương mặt thu nhỏ” (face thumbnails) của từng người nói trên màn hình video và quang phổ của âm thanh nền trong đoạn video đó. Hệ thống có thể lọc ra được nguồn âm thanh thuộc về khuôn mặt nào tại một thời điểm xác định, hơn thế nữa, nó cũng tạo ra những bài phát biểu riêng biệt cho từng giảng viên.

Gã khổng lồ công nghệ này cũng đã hình dung ra hàng loạt các ứng dụng để phát triển công nghệ cô lập giọng nói và hiện đang khai thác thêm cơ hội để kết hợp nó vào những sản phẩm khác nhau của công ty. Hangouts và Youtube có thể được cân nhắc để bắt đầu quá trình đó. Thật không quá khó để thấy rằng công nghệ giọng nói có thể hoạt động ra sao khi áp dụng trên kính thông minh – Google Glass và tai nghe có cường độ âm thanh bằng với giọng nói.

google hangouts

Nỗ lực của trang chủ Google trong việc trợ giúp những diễn giả thông minh nhận dạng những giọng nói của từng cá nhân là một trường hợp nằm ngoài công nghệ này, tuy nhiên vì lí do mô hình mà Google đang thực hiện tập trung vào video, mọi thứ có vẻ hiệu quả hơn khi diễn giả đó được hiện trên màn hình tương tự như Amazon’s Echo Show. Đầu năm nay, Google đã bắt đầu phát triển Google Assistant cho những thiết bị hiển thị thông minh như Echo Show nhưng công ty vẫn chưa cho ra mắt sản phẩm này.

Trong bất kì trường hợp nào, quyền riêng tư của loại công nghệ này đề rất rõ ràng. Công nghệ cô lập giọng nói của Google được bảo mật cao như đã được đề cập qua các ví dụ ở trên, nhưng trong những môi trường có độ tinh vi lớn, giải pháp công nghệ này có thể trở thành công cụ giám sát và nghe lén quyền lực.

Tính đến hiện tại, tất cả vẫn là những suy đoán. Những hy vọng và nỗ lực trong nghiên cứu này ít nhất cũng làm giảm nhu cầu “thét vào” trang chủ Google trong tương lai.

Người dịch: My Lu

Nguồn: arstechnica

Google phát triển công nghệ tách giọng nói trong đám đông bằng AI (Trí tuệ nhân tạo)

Comments

Trả lời Hủy