Add new comment

Flowtron Text to Speech

Flowtron


Flowtron è una tecnologia di nVidia che deriva da questo studio: "Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis".

Di cosa si tratta ?. Flowtron è una rete neurale generativa autoregressiva basata sul flusso per la sintesi vocale con il controllo della variazione del parlato e del trasferimento di tono e timbro. Flowtron prende in prestito intuizioni da IAF e rivisita Tacotron per fornire una sintesi MEL-spettrografica di alta qualità ed espressività. E' ottimizzato massimizzando la probabilità dei dati di addestramento, il che rende l'addestramento semplice e stabile. Flowtron apprende una mappatura invertibile dei dati in uno spazio latente che può essere manipolato per controllare molti aspetti della sintesi vocale (altezza, tono, velocità del discorso, cadenza, accento). I risultati sono sorprendenti, e benchè le voci abbiamo qualche distorsione di sintesi qua e là la presenza del tono e del timbro e della cadenza le fa sembrare assolutamente reali, e i difetti sembra siano dei disturbi di trasmissione del segnale, invece che imperfezioni.

Google Colab

Customize variations and style transfer
style transfer examples

github repo
reddit speechtech