始めに

AI(人工知能)で音声合成を行うのはもう尋常に応用されています。ロボット的な硬い音声読み上げはすでに過去形で、アニメ声のような人間と勘違いさせるほどの声はもうネット上のAIサービスや製品を使って合成できます。歌さえ合成できます!自分の音声の雰囲気を変えたり、「text to speech」をしたり音声文字変換したりなどのことはもう朝飯前です。音声スクリプトを作ることや、好きな人の音声を再現するなど、想像を広げて今回の纏まった十個のサービスや製品の活用できるシーンを考えましょう!

動画処理を絞りたい方は、AIビデオエンハンサーのレビューを見て参考にしてください。

 

 

AI音声合成のソフトとサービスの一覧

今回紹介するものの概要は下表のとおりです。

  動作環境 価格(最低価格を表示) 合成タイプ 対象ユーザー 日本語
CeVIO Creative Studio 7 Win 12000 テキスト→音声/歌 一般ユーザー
coestation IOS 無料 テキスト→音声 一般ユーザー
Amazon Polly API 4$/ 100 万字 テキスト→音声 開発者
Cloud Text-to-Speech API 4$/ 100 万字 テキスト→音声 開発者
Lyrebird AI Win/Mac/クラウド 問合せ次第 テキスト→音声 一般ユーザー・開発者 ×
ClovaVoice クラウド 問合せ次第 テキスト/音声→音声 一般ユーザー ×
FutureVoice Crayon 不問 50000¥毎月 テキスト/音声→音声 法人
音訳エディタ(DaisyRings™) クラウド 80¥/千字;試用あり テキスト→音声 一般ユーザー・法人
AITalk® Win/Mac/クラウド 問合せ次第 テキスト→音声 一般ユーザー・法人
VoiceText Win/Mac/クラウド 問合せ次第 テキスト→音声 法人

詳しい紹介は続きをお読みください。

 

1. CeVIO Creative Studio 7

動作環境:Windows 10 (64bit)、Windows 8.1 (64bit)。32bit版WindowsではCeVIO Creative Studio 6を使う必要があります。

価格:12,000円+税;試用期あり

合成タイプ:text to speech;text to song

対象ユーザー:一般ユーザー

日本語対応:あり

CeVIO Creative Studio 7機能紹介のYouTube動画

「CeVIO Creative Studio 」とは、AIの音声合成技術を利用して人の声を真似して自然な口調、表現力溢れる歌声、音声読み上げを実現できる音声合成と音声変換のソフトです。

人の声の特徴、話しをする習慣、歌う時の癖などを正確で認識度高く合成することができます。キャラの性別、性格の設定、気分の変化によって違う音声の雰囲気をソフトに入れていました。ユーザーが簡単に風格それぞれの自動音声を切り替えることができます。

楽譜を可視化のキーボードのインターフェイスによって入力できます。これはすでに単なる音声合成じゃなくなります。もはや作曲の範疇です。AI作曲ツールをもっと見たいならこの前のAI作曲製品の記事を読んでください。

特徴:

  • 機械学習等の人工知能の手段を応用することで、歌い手の特徴を再現しました。
  • いくつかのキャラのセリフや楽譜を同時に編集することができるため、ほかの競争製品ができない、複数の人物の掛け合う豊富な音声を作ることができます。
  • 任意のセリフ、任意の言葉遣い、任意の楽譜をインプットするだけで品質の高い歌声、話し声を出力できます。
  • 言語は日本語だけではなく、英語、中国語にも対応できます。

 

2. coestation

動作環境:iOS 10.0以降のiPhone、iPad、およびiPod touch

価格:無料

合成タイプ:text to speech

対象ユーザー:一般ユーザー

日本語対応:あり

 

Img2. coestation
Coestation

 

COESTATIONはAI音声合成の技術を基盤にしたスマホのアプリケーションです。テキストを入力することだけで音声変換ができ、それを読み上げる自然な声がすぐに生成するので、自ら声を出すのが不自由の時にはなかなか便利でしょう。この形で友達とコミュニケーションを取るのも面白いではないですか。

アプリが指定している文の段落を読んでアプリに録音されることで、自分の声とそっくりの自動音声を作れますので、テキスト入力だけで口を開けないとしても自分の声の音声読み上げを自由に使えます。そんな「声」はコミュニケーションなど様々な場面に活用できるでしょう。

特徴:

  • アプリが提供する文章を読めば読むほど、AIの学習の材料が多くなり、ユーザーの声を真似する精度もどんどん上がります。
  • 欲しい音声の風格や雰囲気を調整することができます。自分が気に入っている合成音声をsnsにワンクリックでシェアすることができます。
  • 自分の声また自分の音声変換を友人などに使わせたり、他の人の声を使おうとその人にリクエストしたりすることができます。結局、ネット上で自分と他人の身分が入れ替わった錯覚にならないのか(草)。

 

3. Amazon Polly

動作環境: API

価格: 無料使用の範囲を超えた場合、標準音声は100 万字あたり 4ドル で、ニューラル音声は100 万字あたり16ドル です。

合成タイプ:text to speech

対象ユーザー:開発者ユーザー、法人

日本語対応:あり

 

Img3. amazon-polly
Amazon-Polly

 

Amazon Polly は、テキストや文をリアルな音声に変換するサービスです。テキストを読み上げられるアプリケーションを作成できるために、このAPIを使ってどんなアプリやソフトにも音声変換や音声合成機能を付け加えることもできます。進んだ深度学習技術を使用したこのサービスで、自然に聞こえる人工音声を合成できます。

数十種類のリアルな音声と多くの国や地域の言語をサポートしていますので、各国で音声アプリケーションを作り上げようとする時に非常に役立ちます。TTS標準音声のほか、最新の深度学習のAI手段で音声品質の劇的な向上を実現できるニューラルのテキストの音声読み上げ、いわゆるNTTS 音声も公開しています。

特徴:

  • API なので、使用、アプリケーションとの連接が容易です。
  • 多様化の言語と音声合成を選ぶことができます。数十種類の自然に聞こえる音声と多くの言語を支持しています。
  • 特定の音節、文、語彙が発音された時に追加情報としてのメタデータの流れは簡単に請求することができます。
  • あらゆる種類の情報をリアルタイムでアプリからユーザーにストリーミングすることできます。
  • テレビニュースのアナウンサーの話し方や、世間話をしている人たちの盛り上がった嬉しい口調とか、ざまざまな声の特徴を真似できます。

 

4.  Cloud Text-to-Speech

動作環境: API

価格: 100 万文字あたりに4ドルから16ドルまで

合成タイプ:text to speech

対象ユーザー:開発者ユーザー、法人

日本語対応:あり

 

img4. cloud-text-to-speech
Cloud-Text-to-Speech

 

Google Cloud Text to Speech は、文章を 180 種類以上のリアルの声で読むことができ、30 以上の言語に対応できます。Googleの進んだNeural  Networkと音声合成の最新の研究成果を通じて、非常に人の発音と似ている自動音声を作成できます。

API で組み込むことが簡単で、ユーザーに対して使用体験やサービス品質を引き上げるために自由な設置をすることができるので、自然かつ革新的なインタラクションを実現することができます。

特徴:

  • Google のNeural  Networkは Google自社の業界での優位性の強い専門的ノーハウを基盤に作り上げられています。進んだNeural  Networkと深度学習の原理を利用して、各種の言語と音声を文章から音声変換することができます。
  • 180種類以上の音声と30 以上の言語をGoogleが提供しているのでアプリ構築の時に最もニーズに応えられるものを選ぶことができます。
  • 人のような声を発生する深度学習のモデルについて革命的な技術交代を進めています。クラウドでWaveNet を利用すると90種類以上の音声を独自で使うことができます。本当の人の発声との差を70%以上縮めることに成功しました。使える音声はこれからも少しずつ添加されていきそうです。
  • コンピューター、スマホ、IoT 設備(自動車、テレビ、スピーカーなど)など、gRPCあるいはRESTの請求を発送する全部のデバイスやアプリに対応できます。

 

5. Lyrebird AI

動作環境: Win;Mac;クラウド・アプリ(Web)

価格:問合せ次第

合成タイプ:text to speech

対象ユーザー:一般ユーザー、法人

日本語対応:なし

 

Img5. lyrebird-ai
Lyrebird AI

 

Descript会社に従属するLyrebirdは人工知能を基にする音声編集を経営範囲としています。内容創作を表現力強く使えやすくするためにマルチメディアの編集と制作のサービスを提供しています。

「Voice Double」という機能は一つの短い音声のサンプルから、ユーザー本人に聞こえる人工音声を作成することです。「Overdub」という機能は、入力したテキストを、ユーザーが導入した元々の音声ファイアと完全に融合できる合成の音声に置換できる音声変換です。

特徴:

  • Lyrebird AIは今の段階ではベータ版なので、 これらの機能の事例に興味をもつなら、試用はしかできない状況に加え、列に並んで待つ必要もあります。
  • 「Overdub」は多くの場面で利用する価値があります。テキストを入力するだけで元々の音声ファイルと完全に融合できる合成を生成させて編集を行うことや、編集内容の訂正、教育や企業のPR用のナレーション、ゲーム、インターネットラジオの音声製作、アニメなどのところに使われることができます。
  • オンラインとデスクトップ両方でも使えますが、日本語版はまだないです。

 

6. ClovaVoice

動作環境:クラウド・アプリ(Web)

価格:問合せ次第

合成タイプ:text to speech;speech to speech

対象ユーザー:一般ユーザー、法人

日本語対応:なし

 

Img6. clova-voice
ClovaVoice

 

NAVERに開発された、録音した音声のデータでその声と似る音声と他の音声を合成するAI音声変換の技術「NES」を公開した。Clova Voiceのウェブサイトで無料で体験できます。これを使うことでより簡単・迅速的に音声音声読み上げなどの所に使用することできます。また、「悲しみ」「怒り」「喜び」などの情感を表し出す風格それぞれの声も提供されています。

開発者や企業を対象とする「Clova Premirem Voice」の販売も行われています。コマーシャル、ナレーションの製作などの場合で、品質の高いな合成音を作り出して活用することができます。これは、NAVERのクラウド上で有償APIとして利用されることができます。

現在は韓国語と英語にだけ対応できます。

特徴:

  • 面倒くさい加工過程を通じなくてもで音声とテキストを使うだけで、スタイルの違った新しい音声を短時間で作れます。
  • 音の品質の高さです。リアルタイムで音声を生成できるNeural Voice Coderを通じて本当の人の声に近い音声を合成できます。
  • 導入のかかる時間が短いです。NAVERは収録の効率を高めることに特化した技術を開発しました。その技術で半時間ぐらいの原音収録だけで品質の高い音声合成を実現できます。
  • アナウンサーのような穏やかで真面目な声から友人の親切な声、一般の人の声など、それぞれの分野に適応したさまざまなスタイルの声で合成できます。

 

7. FutureVoice Crayon

動作環境:不問

価格: 基本で50,000円/月;感情オプション20,000円/月;話者追加オプション10,000円/月

合成タイプ:text to speech;speech to speech

対象ユーザー:法人

日本語対応:あり

 

Img7. futurevoice-crayon
FutureVoice-Crayon

 

音声合成ソフト「FutureVoice Crayon」はNTT会社に発行されたサービスです。従来の合成音と言えば一般的に音声が硬いですが、対人のロボットやCG動画のアニメ声などの声として使用するなら、人のように自然かつ感情溢れる音声が必要でしょう。

同社が開発した最新の音声合成技術を搭載している「FutureVoice Crayon」なら、こういう要求を満足できます。ニューラルネットワーク深度学習と長い期間の研究開発の歴史で蓄積したデータベースを利用し、少しだけの原音のデータを導入しても本当の人に負けない肉声感・明瞭感のある人工音声を合成できます。

特徴:

  • 人の声の特徴を正確に再現することで、人間の音声に負けない自然な音声を真似できます。
  • API、UIを提供しています。応用シーンによってオンプレミスとクラウド両方とも選択できます。
  • ご指定のキャラや人の声を複製できる音声合成モデルを低いコストで短い期間に作り上げられます。
  • 日本語の音声なら五十種類以上のスタイルの口調や話し手を選べます。外国語も性別や年齢不問の感情に富んだ音声を自由に作成することができます。
  • 各タイプの端末、各種IoTのデバイス等で使用することができます。

 

8. RECAIUS 音訳エディタ(DaisyRings™)

動作環境:クラウド・Webアプリ

価格:下図のとおりです;試用あり

合成タイプ:text to speech

対象ユーザー:一般ユーザー、法人

日本語対応:あり

 

Img8. 音訳エディタ daisy-rings
Daisy-Rings example 1

 

概要

TOSHIBAが開発したDaisyRingsはAIの技術で、テキストを自動で音声化することができます。また、クラウドのサービスで、複数の人がタスクを共同で執行したり、情報を共有したりすることができます。テキストを読むことが困難な方、例えば、ひどい弱視や近視などの視力の不全、高齢の方のために、書籍、雑誌、新聞の音訳、音声読み上げとして広範に利用されています。講義(図書館情報技術論)の実習にも活用されているそうです。

 

Img9. daisy-rings
Daisy-Rings example 2

 

特徴:

  • 再生機能(聞きたいところを連続再生、段落再生)、ポーズ機能(長・短ポーズ挿入/削除)音声調整機能(スピード・音量・ピッチ)、ユーザー辞書登録などの便利性を高める機能がついています。
  • ルビでアクセントの修正が実現できます。
  • 話者(日本語:男性2名/女性2名、英語:女性2名)を行ごとに選べます。
  • 文書管理例えば公開範囲設定・チームのユーザー管理の便利な管理機能がついています。

 

9. AITalk®

動作環境:Win;Mac;クラウド

価格:問合せ次第

合成タイプ:text to speech

対象ユーザー:一般ユーザー、法人

日本語対応:あり

 

Img10. ai-talk
AI-Talk

 

AITalk®は、ほぼ人間そのものの自然な声を自由に合成することができる、品質の高い音声合成サービスを提供している会社です。人工知能などの関連技術とDNNというAI音声変換の方法を応用のシーンに適応させて、より豊かな表現力とより人間の発声に近い高品質の音声を作成することができます。日本語の音声なら、年齢や性別を問わず17種類のスタイルの豊かな音声の候補を提供しています。使用する目的やシーンによって喜怒哀楽などの感情を生き生きと再現できます。

「偽物」の音声が出来たら、そして顔画像をアニメ画像に変換するツールを活用して「偽物」のSNSアイコンを作りましょう!

特徴:

  • 感情の込めた読み上げができますので台詞の表現力を高められます。自然な会話のようなの自動音声を作れます。
  • 少量の導入した原音から感情に富んだ「音声辞書」を作成できます。かかる時間の短縮につながります。
  • 災害時の警報等、地域住民への放送を迅速な音声合成、電話自動応答システムの音声、著名な方の声を利用した着信ボイスサービス、音声合成ASPサービス、あるいはホームページの読上げ等、様々なシーンに活用できます。
  • 日本語処理の最適化プロセスを採用して、入力の文の文法的な間違いや出力した音声の間違いを一定の程度で修正してから音声変換をすることができます。
  • 起伏のない表現と穏やか原音を導入するだけで感情の変化に富んだ自動音声を合成できます。

 

10. VoiceText

動作環境:Win;Mac;クラウド

価格:問合せ次第

合成タイプ:text to speech

対象ユーザー:法人

日本語対応:あり

 

Img11. voice-text
Voice-Text

 

 概要:

VoiceTextは人工知能の関連技術を基にする文章から音声を合成するサービスです。話者から短い時間の原音導入でその人のスタイルを再現する音声を作成できます。最もハイエンドの技術を導入することで、合成音声は品質が上がり、繊細、自然の感情を表せます。また従来の技術では難しかった相槌・語尾・言い回しなどの細かいニュアンスの表現力が大幅に向上しました。一般的にディープラーニングは高いマシンスペックを要求されますが、改良を重ね従来版と近いマシンスペックでの動作を可能にしました。

特徴:

  • 歌声合成の機能も提供しています。歌詞とメロディー(楽譜など)を入力することで歌声を合成する技術です。従来の一音一音を繋ぎ合わせる方式では無く、機械学習ベースの新しい方式により、滑らかで自然な歌声合成を実現しています。
  • 喜び・悲しみ・怒りを表現する『感情音声合成』に対応しております。
  • 海外言語も開発しているので、英語などの言語にも対応できます。
  • 音声合成でも聞き取りやすさに効果がでることが確認されています。騒音環境下での評価実験でも、通常の音声合成モデルに比べ、最大6倍の了解度向上が確認されました。
  • スマホアプリ・機器組み込み・サーバーと、さまざまな構成で利用できます。

 

まとめ

前で紹介したとおりに、AIによる音声合成の技術はすでに人間のような自然な声を合成できます。そこにとどまらず、アニメ声のような感情溢れる、スタイル色々な音声も真似できます。

また、合成音声のクリップの一部を変更して元の音声ストリムにもう一回挿入することもできます。関連のサービスや製品を色々な場面に活用しましょう。

文字やテキストを画像から自動で抽出するツールに興味がある方は、15選のOCRツールを徹底レビュー(個人ユーザー向け)という記事をお読みください。

Aoki Minami
シニアエディター

Aoki Minamiさんは、AIのプロフェッショナルとして、様々なAI技術に関する情報や最新情報の収集に長年の経験を持ち、AI画像処理、AI画像生成などの最新のAI技術も楽しんでいます。 彼女は自分のシェアがAI技術愛好家の皆様にとってより便利なものになることを願っています。趣味の時間には、美味しい料理を作ったり、さまざまな料理を作ったりするのが好きです。

4.4
CeVIO

「CeVIO Creative Studio 」とは、AIの音声合成技術を利用して自然な口調、表現力溢れる歌声、音声読み上げを実現できる音声合成と音声変換のソフトです。

  • 音声コンバーター
$価格
  • 12,000円+税
+メリット
  • 機械学習等の人工知能の手段を応用
  • 複数の人物の掛け合う豊富な音声を作ることができる
  • 多言語対応
-デメリット
  • インターネット接続が必要