Reconhecimento de fala usando a API de fala do Google e Python: 4 etapas

Índice:

Etapa 1: ReSpeaker USB 4-Mic Array
Etapa 2: instalar as bibliotecas necessárias
Etapa 3: conversão de texto em voz em Python com biblioteca Pyttsx3
Etapa 4: Juntando tudo: Criando reconhecimento de fala com Python usando a API de reconhecimento de fala do Google e a biblioteca Pyttsx3

2025 Autor: John Day | [email protected]. Última modificação: 2025-01-23 15:03

Reconhecimento de fala

O Reconhecimento de Fala é uma parte do Processamento de Linguagem Natural, que é um subcampo da Inteligência Artificial. Para simplificar, o reconhecimento de voz é a capacidade de um software de computador de identificar palavras e frases na linguagem falada e convertê-las em texto legível por humanos. É usado em várias aplicações, como sistemas de assistente de voz, automação residencial, chatbots baseados em voz, robô de interação por voz, inteligência artificial e etc.

Existem diferentes APIs (Interface de Programação de Aplicativo) para reconhecimento de fala. Eles oferecem serviços gratuitos ou pagos. Estes são:

CMU Sphinx
Reconhecimento de voz do Google
API Google Cloud Speech
Wit.ai
Reconhecimento de voz do Microsoft Bing
API Houndify
IBM Speech To Text
Detecção de Hotword Snowboy

Estaremos usando o Google Speech Recognition aqui, pois não requer nenhuma chave de API. Este tutorial tem como objetivo fornecer uma introdução sobre como usar a biblioteca de reconhecimento de voz do Google em Python com a ajuda de um microfone externo como o ReSpeaker USB 4-Mic Array do Seeed Studio. Embora não seja obrigatório o uso de microfone externo, até mesmo o microfone embutido do laptop pode ser usado.

Etapa 1: ReSpeaker USB 4-Mic Array

O ReSpeaker USB Mic é um dispositivo de microfone quádruplo projetado para aplicações de IA e voz, desenvolvido pelo Seeed Studio. Possui 4 microfones omnidirecionais integrados de alto desempenho projetados para captar sua voz de qualquer lugar da sala e 12 indicadores LED RGB programáveis. O microfone ReSpeaker USB é compatível com os sistemas operacionais Linux, macOS e Windows. detalhes podem ser encontrados aqui.

O ReSpeaker USB Mic vem em uma bela embalagem contendo os seguintes itens:

Um guia do usuário
ReSpeaker USB Mic Array
Micro USB para cabo USB

Então, estamos prontos para começar.

Etapa 2: instalar as bibliotecas necessárias

Para este tutorial, assumirei que você está usando Python 3.x.

Vamos instalar as bibliotecas:

pip3 instalar SpeechRecognition

Para macOS, primeiro você precisa instalar o PortAudio com Homebrew e, em seguida, instalar o PyAudio com pip3:

brew install portaudio

Executamos o comando abaixo para instalar o pyaudio

pip3 instalar pyaudio

Para Linux, você pode instalar o PyAudio com apt:

sudo apt-get install python-pyaudio python3-pyaudio

Para Windows, você pode instalar o PyAudio com pip:

pip install pyaudio

Crie um novo arquivo python

nano get_index.py

Cole em get_index.py abaixo do snippet de código:

importar pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') para i no intervalo (0, numdevices): if (p.get_device_info_by_host_api_device_indexhan (0, i).getCnels '))> 0: print ("Input Device id", i, "-", p.get_device_info_by_host_api_device_index (0, i).get (' name '))

Execute o seguinte comando:

python3 get_index.py

No meu caso, o comando fornece a seguinte saída para a tela:

Dispositivo de entrada id 1 - ReSpeaker 4 Mic Array (UAC1.0)

Dispositivo de entrada id 2 - Microfone MacBook Air

Altere device_index para o número do índice de acordo com sua escolha no snippet de código abaixo.

importar speech_recognition como sr

r = sr. Recognizer () speech = sr. Microphone (device_index = 1) com voz como fonte: print ("diga algo!…") audio = r.adjust_for_ambient_noise (fonte) audio = r.listen (fonte) try: recog = r.recognize_google (audio, language = 'en-US') print ("Você disse:" + recog) exceto sr. UnknownValueError: print ("O reconhecimento de fala do Google não entendeu áudio") exceto sr. RequestError como e: print ("Não foi possível solicitar resultados do serviço Google Speech Recognition; {0}". Formato (e))

O índice do dispositivo foi escolhido como 1 porque o ReSpeaker 4 Mic Array será a fonte principal.

Etapa 3: conversão de texto em voz em Python com biblioteca Pyttsx3

Existem várias APIs disponíveis para converter texto em fala em python. Uma dessas APIs é o pyttsx3, que é o melhor pacote de texto para fala disponível na minha opinião. Este pacote funciona em Windows, Mac e Linux. Verifique a documentação oficial para ver como isso é feito.

Instale o pacote Use pip para instalar o pacote.

pip install pyttsx3

Se você estiver no Windows, precisará de um pacote adicional, pypiwin32, do qual será necessário acessar a API de fala nativa do Windows.

pip install pypiwin32

Converter texto em fala python scriptBelow é o snippet de código de texto em fala usando pyttsx3:

importar pyttsx3

engine = pyttsx3.init ()

engine.setProperty ('rate', 150) # Velocidade por cento

engine.setProperty ('volume', 0.9) # Volume 0-1

engine.say ("Olá, mundo!")

engine.runAndWait ()

Etapa 4: Juntando tudo: Criando reconhecimento de fala com Python usando a API de reconhecimento de fala do Google e a biblioteca Pyttsx3

O código a seguir é responsável por reconhecer a fala humana usando o Google Speech Recognition e por converter o texto em fala usando a biblioteca pyttsx3.

importar speech_recognition como sr

import pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0,9) r = sr. Recognizer () speech = sr. Microphone (device_index = 1) com fala como fonte: audio = r.adjust_for_ambient_noise (fonte) audio = r.listen (fonte) try: recog = r.recognize_google (audio, language = 'en-US') print ("Você disse:" + recog) engine.say (" Você disse: "+ recog) engine.runAndWait () except sr. UnknownValueError: engine.say (" O Google Speech Recognition não conseguiu entender o áudio ") engine.runAndWait () exceto sr. RequestError como e: engine.say (" Não foi possível solicitar resultados do serviço de reconhecimento de fala do Google; {0} ". format (e)) engine.runAndWait ()

Ele imprime a saída no terminal. Além disso, também será convertido em fala.

Você disse: Londres é a capital da Grã-Bretanha

Espero que agora você tenha um melhor entendimento de como o reconhecimento de fala funciona em geral e, o mais importante, como implementar isso usando a API de reconhecimento de fala do Google com Python.

Se você tiver alguma dúvida ou feedback? Deixe um comentário abaixo. Fique ligado!

Reconhecimento de fala com Arduino (Bluetooth + LCD + Android): 6 etapas

Reconhecimento de fala com Arduino (Bluetooth + LCD + Android): Neste projeto, faremos reconhecimento de voz com Arduino, módulo Bluetooth (HC-05) e LCD. vamos construir seu próprio dispositivo de reconhecimento de voz

Reconhecimento e identificação facial - Arduino Face ID usando OpenCV Python e Arduino: 6 etapas

Reconhecimento e identificação facial | Arduino Face ID usando OpenCV Python e Arduino .: O reconhecimento facial AKA Face ID é um dos recursos mais importantes em telefones celulares hoje em dia. Então, eu tinha uma pergunta " posso ter um ID de rosto para meu projeto Arduino? e a resposta é sim … Minha jornada começou da seguinte maneira: Etapa 1: Acesso a nós

Tecnologia assistiva para dificuldades de fala usando MakeyMakey com Scratch: 4 etapas

Tecnologia assistiva para dificuldades de fala usando MakeyMakey W / Scratch: Meu dispositivo de tecnologia assistiva é usado para ajudar com deficiências de fala e / ou fala limitada. Isto é. destina-se a auxiliar no processo de aprendizagem

APLICATIVO DE TEMPERATURA E UMIDADE DA FALA DE COISA USANDO ESP8266: 9 etapas

APLICATIVO DE TEMPERATURA E UMIDADE DO THINGSPEAK USANDO ESP8266: Enquanto mexia nas minhas coisas eletrônicas, tive a ideia de fazer um aplicativo de previsão do tempo baseado na web. Este aplicativo da web usa o sensor SHT31 para obter os dados de temperatura e umidade em tempo real. Implementamos nosso projeto no módulo WiFi ESP8266. Online ou offli

Como conectar o aplicativo Android com AWS IOT e Compreendendo a API de reconhecimento de voz: 3 etapas

Como conectar o aplicativo Android com AWS IOT e Compreendendo a API de reconhecimento de voz: Este tutorial ensina o usuário como conectar o aplicativo Android ao servidor AWS IOT e a compreender a API de reconhecimento de voz que controla uma máquina de café. O aplicativo controla a máquina de café por meio do Alexa Serviço de voz, cada aplicativo c

Reconhecimento de fala usando a API de fala do Google e Python: 4 etapas

Índice:

Reconhecimento de fala

Etapa 1: ReSpeaker USB 4-Mic Array

Etapa 2: instalar as bibliotecas necessárias

Etapa 3: conversão de texto em voz em Python com biblioteca Pyttsx3

Etapa 4: Juntando tudo: Criando reconhecimento de fala com Python usando a API de reconhecimento de fala do Google e a biblioteca Pyttsx3

Recomendado:

Reconhecimento de fala com Arduino (Bluetooth + LCD + Android): 6 etapas

Reconhecimento e identificação facial - Arduino Face ID usando OpenCV Python e Arduino: 6 etapas

Tecnologia assistiva para dificuldades de fala usando MakeyMakey com Scratch: 4 etapas

APLICATIVO DE TEMPERATURA E UMIDADE DA FALA DE COISA USANDO ESP8266: 9 etapas

Como conectar o aplicativo Android com AWS IOT e Compreendendo a API de reconhecimento de voz: 3 etapas

Fazendo um estúdio de gravação barato !: 4 etapas

Como modificar sua camiseta do equalizador com porta de fone de ouvido: 6 etapas

Como fazer - Registros de emergência no pen drive USB: 14 etapas (com fotos)

Relógio sem mãos: 5 etapas (com fotos)

Dê ao seu carro Rc Break Lights: 7 Passos

Placa de desenvolvimento Atmega16 / 32 com LCD: 8 etapas

Como modificar sua camiseta do equalizador com porta de fone de ouvido: 2: 6 etapas

Rádio-controle - Au Electronics: 8 etapas

Como montar virtualmente um arquivo de disco: 3 etapas

Mobilphone USB: 6 etapas

Auto Spy Remote: 8 etapas (com fotos)

Boombox de papelão: 7 etapas

Montagem de liberação de cabo para câmera digital Olympus SP-350: 11 etapas

Faça um Avatar: 8 Passos

Caixa de alto-falante: 10 etapas

Gravação sem um estúdio completo para muito barato: 5 etapas