Freiberuflicher Netwickler mit WaveNet/Polly KnowHow gesucht
Für meinen Kunden aus der Medienwelt bin ich auf der Suche nach einem freiberuflichen Entwickler mit WaveNet oder Polly KnowHow um eine Software zu entwicklen, die künstliche Stimmen abspielen lassen kann, ohne dass Sie künstlich klingen.
Zielsetzung:
Ziel dieser Unterlagen ist es eine Übersicht und Entscheidungsgrundlage für die das Text-to-Speech /
Sprachsynthese Projekt im Medienproduktions-Bereich zu schaffen:
- Status quo Technologie
- Wettbewerbsanalyse
- Potentielle Kooperationspartner
- Einsatzbereich konkretisieren
- Simple Text-to-speech (bad quality)
- Navigation Systems, Public transport systems
- Text-to-speech (good quality)
- Concatenative speech synthesis (Wörter bzw. Diphone aneinanderreihen)
- Duolingo language app, etc.
- Natural sounding voice
- Formant speech synthesis (frequency generator) or signal modeling
- Podcast, etc.
- Holy grail: Natural sounding voice correlating to facial expression
- cloud- based & AI-based signal modeling with deep neural networks (DNN)
- Huge datasets necessary to learn from in multiple iterations
- matching facial expression / lip synced (time stamps) of
- actors / cartoon / game characters
- Step I: 1 language (e.g. ENG to GER)
- Step II: multiple languages
- Beispiel: Google’s DeepMind verwendet Tensorflow für Tacotron-2 (WaveNet)
- Gets better and better using AI-based learning (LSTM)
- LSTM = long short term memory; artificial recurrent neural network (RNN) architecture
mehr...
zur Vakanz
Weitere Jobs von Aplitrak