Freiberuflicher Netwickler mit WaveNet/Polly KnowHow gesucht

Aplitrak - München - 26-07-2019 zur Vakanz  

Für meinen Kunden aus der Medienwelt bin ich auf der Suche nach einem freiberuflichen Entwickler mit WaveNet oder Polly KnowHow um eine Software zu entwicklen, die künstliche Stimmen abspielen lassen kann, ohne dass Sie künstlich klingen.

Zielsetzung:
Ziel dieser Unterlagen ist es eine Übersicht und Entscheidungsgrundlage für die das Text-to-Speech /

Sprachsynthese Projekt im Medienproduktions-Bereich zu schaffen:
  • Status quo Technologie
  • Wettbewerbsanalyse
  • Potentielle Kooperationspartner
  • Einsatzbereich konkretisieren
Herausforderungen Sprachsynthese im Medienbereich
  • Simple Text-to-speech (bad quality)
  • Navigation Systems, Public transport systems
  • Text-to-speech (good quality)
  • Concatenative speech synthesis (Wörter bzw. Diphone aneinanderreihen)
  • Duolingo language app, etc.
  • Natural sounding voice
  • Formant speech synthesis (frequency generator) or signal modeling
  • Podcast, etc.
  • Holy grail: Natural sounding voice correlating to facial expression
  • cloud- based & AI-based signal modeling with deep neural networks (DNN)
  • Huge datasets necessary to learn from in multiple iterations
  • matching facial expression / lip synced (time stamps) of
  • actors / cartoon / game characters
  • Step I: 1 language (e.g. ENG to GER)
  • Step II: multiple languages
Technologie - state of the art (Signal Modellierung)
  • Beispiel: Google’s DeepMind verwendet Tensorflow für Tacotron-2 (WaveNet)
  • Gets better and better using AI-based learning (LSTM)
  • LSTM = long short term memory; artificial recurrent neural network (RNN) architecture
Sollten Sie Interesse am Projekt haben, freue ich mich auf Ihre Nachricht!
mehr...

zur Vakanz

Weitere Jobs von Aplitrak