Analizar el archivo de audio basado en la voz del altavoz

votos
0

Necesito crear una aplicación web en la que se carga un archivo de audio y como salida se obtiene un número de archivos de audio igual al número de hablantes que participan en la conversación. Por ejemplo, si carga un registro de podcast de radio con 2 altavoces implicados, aplicación analizará el archivo y registro separado en 2 archivos de audio en el que cada altavoz está hablando por separado.

Ahora necesito un poco de ayuda aquí con respecto a la API que debe utilizar, seguramente no soy capaz de desarrollar una tecnología de este tipo, pero se pregunta si hay cualquier API que permitiría que para que esto suceda.

He hecho algunas investigaciones y encontró este proyecto en Github que está relacionada con la API de Microsoft reconocimiento de locutor. https://github.com/Microsoft/Cognitive-SpeakerRecognition-Windows

Es esto lo mejor que puede empezar? Todas las recomendaciones son muy apreciados.

Gracias

Publicado el 20/10/2018 a las 10:44
fuente por usuario
En otros idiomas...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more