Flowtron Text to Speech

Flowtron


Flowtron è una tecnologia di nVidia che deriva da questo studio: "Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis".

Di cosa si tratta ?. Flowtron è una rete neurale generativa autoregressiva basata sul flusso per la sintesi vocale con il controllo della variazione del parlato e del trasferimento di tono e timbro. Flowtron prende in prestito intuizioni da IAF e rivisita Tacotron per fornire una sintesi MEL-spettrografica di alta qualità ed espressività. E' ottimizzato massimizzando la probabilità dei dati di addestramento, il che rende l'addestramento semplice e stabile. Flowtron apprende una mappatura invertibile dei dati in uno spazio latente che può essere manipolato per controllare molti aspetti della sintesi vocale (altezza, tono, velocità del discorso, cadenza, accento). I risultati sono sorprendenti, e benchè le voci abbiamo qualche distorsione di sintesi qua e là la presenza del tono e del timbro e della cadenza le fa sembrare assolutamente reali, e i difetti sembra siano dei disturbi di trasmissione del segnale, invece che imperfezioni.

Google Colab

Customize variations and style transfer
style transfer examples

github repo
reddit speechtech


Add new comment

Potrebbero interessarti anche...