Python nhận dạng giọng nói: Làm thế nào để dịch giọng nói sang văn bản?



Blog này đề cập đến khái niệm nhận dạng giọng nói trong python với một chương trình mẫu dịch lời nói thành văn bản bằng cách sử dụng tính năng nhận dạng giọng nói.

Lời nói là phương tiện giao tiếp phổ biến nhất trên thế giới. Hầu hết dân số trên thế giới dựa vào lời nói để giao tiếp với nhau. Giả sử chúng ta đang xây dựng một mô hình và thay vì một cách tiếp cận bằng văn bản, chúng ta muốn hệ thống của mình phản hồi lại giọng nói, thì điều đó sẽ trở nên khá khó khăn và yêu cầu nhiều dữ liệu được xử lý. Hệ thống nhận dạng giọng nói vượt qua rào cản này bằng cách dịch lời nói thành văn bản. Trong blog này, chúng ta sẽ xem xét tính năng nhận dạng giọng nói mô-đun trong python . Đây là danh sách tương tự:

Nhận dạng giọng nói hoạt động như thế nào?

Hệ thống nhận dạng giọng nói về cơ bản chuyển lời nói thành văn bản. Có nhiều ví dụ thực tế khác nhau về hệ thống nhận dạng giọng nói. Ví dụ- siri, lấy lời nói làm đầu vào và dịch nó thành văn bản.





Ưu điểm của việc sử dụng hệ thống nhận dạng giọng nói là nó vượt qua rào cản về khả năng đọc viết. Mô hình nhận dạng giọng nói cũng có thể phục vụ cả khán giả biết chữ và mù chữ, vì mô hình này tập trung vào giọng nói.

Chúng tôi cũng có thể kiểm kê tất cả các ngôn ngữ có nguy cơ tuyệt chủng trên khắp thế giới bằng hệ thống nhận dạng giọng nói. Mặc dù trông khá hấp dẫn và không phức tạp chút nào, nhưng hệ thống nhận dạng giọng nói phải đối mặt với rất nhiều thách thức trong quá trình chế tạo.



Những thách thức phải đối mặt với nhận dạng giọng nói Hệ thống

cách sử dụng chờ và thông báo trong java

Hệ thống nhận dạng giọng nói trở nên khó thực hiện vì chúng ta có quá nhiều nguồn biến thể khi nói đến giọng nói.

Phong cách nói

Mỗi người có một phong cách nói khác nhau, bao gồm cả trọng âm. Như chúng ta đã biết, chúng ta cũng có các trọng âm khác nhau để nói tiếng Anh. Có tiếng Anh Mỹ, tiếng Anh Anh và rất nhiều giọng khác khi nói ngôn ngữ phổ biến nhất trên thế giới. Cách phát âm cũng gây khó khăn cho hệ thống nhận dạng giọng nói trong việc dịch toàn bộ bài phát biểu.



Môi trường

Môi trường cũng làm tăng thêm nhiều tiếng ồn xung quanh cho hệ thống. Một căn phòng biệt lập so với một khán phòng sẽ có nhiều sự thay đổi về tiếng ồn xung quanh. Ngay cả tiếng vọng cũng có thể gây thêm nhiều tiếng ồn trong hệ thống.

Đặc điểm loa

Giọng của người già có thể không giống giọng của trẻ sơ sinh. Đặc điểm của bài phát biểu của một người phụ thuộc vào nhiều yếu tố, bao gồm cả độ gay gắt và rõ ràng.

Hạn chế ngôn ngữ

Một số câu nói có thể không có ý nghĩa khả thi khi dịch.

Sau khi vượt qua những thách thức này, việc dịch giọng nói sang văn bản là hoàn toàn có thể thực hiện được đối với bất kỳ hệ thống nhận dạng giọng nói nào. Bây giờ chúng ta đã biết cách hoạt động của nhận dạng giọng nói, chúng ta hãy xem có sẵn để nhận dạng giọng nói trong python.

Các gói có sẵn để nhận dạng giọng nói trong python

  • apiai

  • Nhận dạng giọng nói

  • Google_speech_cloud

  • assemblyai

  • Pocketsphinx

  • Watson_developer_cloud

  • trắng

Chúng ta sẽ đi qua chi tiết về gói SpeechRecognition trong blog này, chúng ta cũng hãy nhìn xuống làn đường bộ nhớ để hiểu hệ thống nhận dạng giọng nói đã phát triển như thế nào trong những năm qua.

Nguyên mẫu đầu tiên của nhận dạng giọng nói trên thực tế là một món đồ chơi, có tên đài phát thanh rex xuất hiện vào khoảng những năm 1920. Nó có một con chó đang ngồi trong một ngôi nhà dành cho chó, nó sẽ bật ra ngay khi ai đó thốt ra từ rex.

Vấn đề duy nhất với mô hình là lò xo được gắn với một nam châm điện nhạy cảm với năng lượng khoảng 500hz. Hoàn toàn là một máy dò tần số, nó có thể được gọi từ xa như một mô hình nhận dạng giọng nói.

Năm 1962, IBM đã đưa ra một hộp đựng giày mô hình có thể nhận dạng các từ riêng biệt và cũng thực hiện một số phép tính số học.

Sau đó đến HARPY từ CMU, có thể nhận dạng giọng nói được kết nối từ 1000 từ vựng. Vào khoảng những năm 1980, mọi người bắt đầu sử dụng các mô hình thống kê và một trong những mô hình học máy được sử dụng nhiều nhất là mô hình markov ẩn.

Sau khi mạng nơ-ron sâu ra đời, hầu hết các mô hình nhận dạng giọng nói đều hoạt động trên mạng nơ-ron. Khả năng không thể tưởng tượng được với mạng nơ-ron, vốn từ vựng có thể lên đến 10k từ và hơn thế nữa.

Làm thế nào để cài đặt SpeechRecognition trong Python?

Để cài đặt gói SpeechRecognition là python, hãy chạy lệnh sau trong thiết bị đầu cuối và nó sẽ được cài đặt trên hệ thống của bạn.

hướng dẫn thiết kế ui studio android

cài đặt-nhận dạng giọng nói python-edureka

đi sắp xếp c ++

Một cách tiếp cận khác cho điều này, có thể là thêm gói từ trình thông dịch dự án nếu bạn đang sử dụng

Gói có một lớp Recognizer về cơ bản là nơi điều kỳ diệu xảy ra. Về cơ bản nó là một lớp được sử dụng để nhận dạng bài phát biểu. Sau đây là bảy phương pháp có thể đọc các nguồn âm thanh khác nhau bằng cách sử dụng các API khác nhau.

  • Recog_ing_ing ()
  • Recog_google ()
  • Recog_google_cloud ()
  • Recog_houndify ()
  • công nhận_ibm ()
  • công nhận_wit ()
  • Recog_sphinx ()

Bây giờ, Recog_sphinx cũng có thể được sử dụng để chạy hệ thống nhận dạng giọng nói ngoại tuyến. Nó yêu cầu cài đặt Pocketsphinx.

nhập nhận dạng giọng nói dưới dạng sr #instance của lớp trình nhận dạng r = sr.Recognizer ()

Lấy đầu vào từ micrô

Để sử dụng micrô, chúng tôi cũng sẽ phải cài đặt mô-đun pyaudio. Chúng tôi sử dụng lớp micrô để lấy lời nói đầu vào từ micrô thay vì bất kỳ phương thức nhập nào khác như tệp âm thanh.

Đối với hầu hết các dự án, chúng tôi có thể sử dụng micrô mặc định. Nhưng nếu bạn không muốn sử dụng micrô mặc định,bạn có thể lấy danh sách tên micrô bằng phương thức list_microphone_names.

Để nắm bắt đầu vào từ micrô, chúng tôi sử dụng phương pháp nghe.

nhập nhận dạng giọng nói dưới dạng sr r = sr.Recognizer () với sr.Microphone () dưới dạng nguồn: audio = sr.listen (nguồn)

Làm thế nào để cài đặt Pyaudio bằng Python?

Để cài đặt Pyaudio trong python, hãy chạy lệnh sau trong thiết bị đầu cuối hoặc nếu bạn đang sử dụng pycharm, hãy thêm gói từ trình thông dịch dự án trong cài đặt.

Trường hợp sử dụng

Chúng tôi sẽ tạo một chương trình sử dụng mô-đun nhận dạng giọng nói trong python để nhận dạng giọng nói và thực thi những điều sau:

  1. chuyển lời nói thành văn bản
  2. mở một URL bằng mô-đun trình duyệt web
  3. chuyển một truy vấn sử dụng nhận dạng giọng nói để thực hiện tìm kiếm trong url

Sau đây là chương trình cho câu lệnh vấn đề trên:

import speech_recognition as sr import webbrowser as wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () với sr.Microphone () as source: print ('[search edureka: search youtube]') print ('speak now') audio = r3.listen (source) if 'edureka' in r2.recognize_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' with sr .Microphone () as source: print ('search your query') audio = r2.listen (source) try: get = r2.recognize_google (audio) print (get) wb.get (). Open_new (url + get) ngoại trừ sr.UnknownValueError: print ('error') ngoại trừ sr.RequestError as e: print ('failed'.format (e)) if' video 'in r1.recognize_google (audio): r1 = sr.Recognizer () url =' https://www.youtube.com/results?search_query= 'with sr.Microphone () as source: print (' search for a video ') audio = r2.listen (source) try: get = r1.recognize_google (audio ) print (get) wb.get (). open_new (url + get) ngoại trừ sr.UnknownValueError: print ('không thể hiểu') ngoại trừ sr.RequestError as e: print (không lấy được kết quả'.format (e) )

Bạn sẽ nhận được đầu ra giống như nó được hiển thị trong hình ảnh. Nếu bạn nói edureka, nó sẽ nhắc bạn nói truy vấn mà bạn muốn tìm kiếm trong url edureka mà chúng tôi đã viết trong biến url. Nếu bạn nói python, bạn sẽ thấy trang web sau được mở trong trình duyệt.

Trong blog này, chúng tôi đã thảo luận về cách chúng tôi có thể sử dụng tính năng nhận dạng giọng nói trong python để dịch giọng nói sang văn bản bằng cách sử dụng gói nhận dạng giọng nói. đã trở thành nhu cầu hàng ngày cho các khái niệm như nhận dạng giọng nói hoặc từ chối đối tượng, với cung cấp khả năng không thể tưởng tượng được cho các hệ thống nhận dạng giọng nói, nơi chúng tôi có thể đào tạo và kiểm tra dữ liệu giọng nói khổng lồ để xây dựng hệ thống. Bạn có thể đăng ký tham gia cho các mạng thần kinh sâu để làm chủ các kỹ năng của bạn và bắt đầu việc học của bạn.

có bất kỳ câu hỏi? đề cập đến họ trong các bình luận, chúng tôi sẽ liên hệ lại với bạn.