Ele funciona a partir uma amostra de 20 minutos de áudio de qualquer pessoa, interpretando o conteúdo e quebrando-o em fonemas, para então usá-los na construção de palavras que não foram efetivamente ditas.
Um novo significado para “não coloque palavras na minha boca!”