それが何であり、どのように機能するかをよりよく理解するために、大まかに言って、 合成音声 確かに私たち全員がいつか出くわした明確な例を参照したいと思います。具体的には、YouTubeや、ナレーターが話している他のインターネットサービスに存在するビデオについて話します。 コンピューターで生成された音声。 おそらく最もよく知られていて最も広く使われている読書ソフトウェアは ロケンド 今日の真実は、これらのシステムが大きく進化したということですが、私たちは コルタナ o シリ.
今日、によって提示された最新の洗練された音声合成プログラム でログイン、の名前で知られているソフトウェア ウェイネット それは部門に所属するエンジニアによって作成されました ディープマインド、2014年にGoogleに買収された人工知能会社。WayNetは 複雑な人工知能アルゴリズムに基づく音声合成ソフトウェア これは複雑な神経系として機能します。
あなたを驚かせる革新的な音声シンセサイザー、WaveNet
WayNetが提示するノベルティの中で、これまで使用された主な方法は TTS、テキスト読み上げ。さまざまな録音された音声フラグメントを組み合わせて単語や文を作成します。 パラメトリックTTS、結果が前の音声コーダーよりもさらに自然ではない音声コーダーにテキストを送信する方法であるため、オーディオを組み合わせて再生するだけでなく、WayNetが コンテキストを学習して適応できる複雑な人工知能システムを統合します.
この新しいシステムは実行することができます 16.000秒あたりXNUMXサンプル 人間の介入なしに独自のオーディオシーケンスを生成することもできます。 一方、開発を担当するエンジニアは、統計に頼って後で何を言わなければならないかを予測できるシステムを導入し、システムがより迅速かつ流動的に結果を提供できるようにしたことは言及する価値があります。 WayNetに興味がある場合は、そのWebサイトで次のことができることを伝えてください。 英語と北京語でさまざまなサンプルを聞く.
詳細情報: ディープマインド