Develop Solutions

al+ GPT Solutions Blog

Back
開発 2024年7月1日

音声合成AIの可能性は?メリットや注意点、活用事例を紹介

音声合成

近年、AIを活用して実現した技術として「音声合成」があります。AIを活用した音声合成は、コンピュータで人間の声を作り出し、文字の読み上げや会話、歌などの生成が可能な技術です。エンタメから福祉まで、幅広い業界で利用されており、人間の声の表現に近づくよう日々改良がなされています。

本記事では、AIを使った音声合成技術によってできることやメリット・デメリット、導入事例をお伝えします。音声合成を活用する際の参考にしてください。

Table of Contents

音声合成とは?

音声合成とは、コンピュータで人間の声を人工的に作り出す技術です。人間の声を作るには、登録した人間の声を組み合わせて発話させる、人間の声をまねて人工的な声を作って出力するなどの方法があります。

音声合成は、テキストで入力された文字の読み上げや会話、歌などが可能で、目の不自由な方や小さな文字を読むのが困難な方などのサポートにも使われています。

従来のAIの音声は、機械的で不自然な印象を受けるものでしたが、AIの発展に伴い、合成した音声が人間の声に近づきつつあることも注目すべきポイントです。幅広い業界で利用され、導入が進んでおり、今後も伸びていくと考えられています。

音声合成でできること

音声合成_001

ここからは音声合成でできることを詳しくご紹介します。音声合成でできることは大きく3つ挙げられます。

  • 声質変換
  • ノイズキャンセル
  • バーチャルヒューマン

声質変換

声質変換とは、特定の人の音声データを学習させて、実際にその人がしゃべっているかのように変換する技術です。音声データをもとに生成するので、話す内容が自由自在なうえ、風邪をひいた鼻声の再現などもできます。

ノイズキャンセル

ノイズキャンセルは、低品質な音声から高音質な音声を生成する技術です。古い音源などからノイズだけを取り除いて変換できるため、高音質な作品を作るだけでなく、後世に残しておくべき大事な音源などにも活用できるでしょう。

バーチャルヒューマン

バーチャルヒューマンは、コンピュータで生成されたデジタルのキャラクターのことで、音声合成によってキャラクターの声が作られています。バーチャルヒューマンが自然な声を出せるようになると、コミュニケーションの質が上がり、ユーザー体験がかなり変化すると期待されています。

音声合成AIが活用されるシーン

音声合成AIは現在、おもに以下のシーンで活用されています。

  • 顧客対応
  • 店舗での案内
  • eラーニング
  • エンターテインメント
  • 医療や福祉
  • 自治体の業務
  • 交通

音声合成AIは取り入れやすく、さまざまな分野で活用できるため、今後も広がっていくことが予想されています。

顧客対応

音声合成AIは、コールセンターや受付業務といった顧客対応への強い味方です。特にコールセンター業界では、オペレーターの人手不足や教育制度の不十分さなどが問題となっています。音声合成AIを取り入れることで、顧客の待ち時間を減らして満足度が上がる、業務の効率化につながるなどのメリットがあります。

店舗での案内

音声合成AIは飲食店などの店舗にて、案内や予約の受付などに役に立っています。従業員の負担が減らせるため、人手不足の解消につながります。また、多言語に対応できることも大きなメリットといえるでしょう。

eラーニング

オンラインでの学びが当たり前のものとなりつつある昨今、eラーニングの教材に音声合成AIによるナレーションを活用するケースが増えています。

ナレーションとして音声合成された声を導入することで、従来必要であったナレーターとのスケジュール調整や録音室の手配が不要になるのがメリットです。また、作成や修正も簡単であるため、教材作成の効率化に役立っています。

エンターテインメント

音声合成AIはテレビ番組やゲームなどエンターテインメントへの活用も進んでいます。テレビ番組でのナレーションに音声合成AIを活用することで、アナウンサーの多忙さの軽減や番組の制作コストの削減などにも寄与。目の不自由な方が理解しやすいように解説する「解説放送」でも活用されています。

また、ゲーム業界でも音声合成技術は進化を遂げており、プレイヤーとの応答がより自然な形でできるようになりつつあります。

医療や福祉

音声合成_002

音声合成AIは、医療や福祉の分野でも活躍する技術です。たとえば、音声合成AIのナレーションを用いたスライドなどを患者や利用者への説明に利用して、業務の効率化を進める医療機関もあります。

また、注目されているのが、声帯摘出の手術を控えている方など、今後声を失う可能性がある方の声を残すという取り組みです。自分の声を収録しておくことで、声を失ったあとも、AIがテキスト入力をもとに本人が話しているかのような音声で伝えられます。

自治体の業務

音声合成AIは、自治体での導入も進んでいます。AIを活用することで、慌ててしまいがちな緊急時にも落ち着いた情報を伝えられるほか、職員の負担も減らせるのがメリットです。さらに高齢者や文字が読みにくい人向けにホームページの読み上げを活用する自治体もあります。

他にも電話応対をAIに任せることによる職員の負担軽減や、365日いつでも問い合わせができること、多言語に対応できるのも強い味方になるでしょう。

交通

交通業界でも音声合成AIの導入が進んでいます。すでに、電車や新幹線の駅のホームや車内のアナウンス、自動車ではドライブレコーダーやカーナビに利用されています。

駅や電車の車内など、列車が通過する際などに放送が聞き取りにくい場合がありますが、音声合成AIは、周波数を調整し聞き取りやすい声にするなど調整が可能です。

音声合成AIを活用するメリット

音声合成_003

音声合成AIを活用するメリットは以下の通りです。

  • 時間とコストの両面が削減できる
  • 多言語対応が可能
  • 視覚障害や読字障害、声が出せない方の助けになる

時間とコストの両面が削減できる

従来、音声を収録する場合には、スタジオなどの収録環境を用意し、ナレーターや収録のためのスタッフが必要でした。スケジュール調整や修正などがあった場合の再収録には多くの時間とコストがかかっていたのです。

しかし、音声合成AIでは、テキストを入力するだけで音声が作れるため、大幅な時間とコストの削減につながります。また、シナリオの修正や変更にも柔軟に対応でき、練習も必要ありません。   

多言語対応が可能

音声合成AIには、翻訳機能がついており、他の言語に翻訳した音声が出力できるものもあります。日本語でテキストを入力、または話しかけると自動で外国語に翻訳してくれるので、外国の方との円滑なコミュニケーションにつながるでしょう。

視覚障害や読字障害をもつ方、声が出せない方の助けになる

音声合成AIは福祉の現場や日常の困りごとの助けになります。文字を読むことが難しい方は、読み上げ機能を使ってテキストの情報が受け取れますし、声が出せない方でも音声での会話が可能になります。

音声合成AIを活用する際のデメリットや注意点

音声合成AIには多くのメリットがある一方で、以下のデメリットもあります。

  • 発音やイントネーションに不自然さがある
  • 言語の制限がある
  • 商用利用可能かどうか注意が必要

AIによる音声合成は、デメリットに注意して活用すれば、大いに役立つものです。以下を参考にしてください。

発音やイントネーションに不自然さがある

多くの人が最も違和感を覚えるのは、発音やイントネーションの不自然さでしょう。音声合成AIの精度が上がっているとはいえ、人間の会話を完全に再現できるわけではなく、とくに感情表現はまだまだAIが苦手とする分野です。

とはいえ、音声合成AIは人間の声に近づくよう日々進化しています。細かく感情設定ができる、声色を選べる、大人の声や方言に対応できるなど、AIによって特徴がありますので、導入の際はサンプル音源を聴き比べて選ぶようにしましょう。

言語の制限がある

外国語の翻訳機能も日々進歩しているとはいえ、外国語によっては使用したい言語がない場合もあります。外国で使う場合には、行き先の言語の登録があるか、確認するとよいでしょう。

商用利用可能かどうか注意が必要

音声合成ソフトやAPIを利用して作成した音声を商用利用したい場合、利用規約で許可されているか確認する必要があります。思わぬトラブルにもなりかねないので、利用規約をよく読んで利用しましょう。

代表的な音声合成AI5選

音声合成_004

音声合成AIにはさまざまなものが登場しています。代表的な5つのAIとその特徴をお伝えします。

ORI GINAL VOICE(ReadSpeaker)

ReadSpeakerの「ORIGINAL VOICE」は、企業や製品のイメージに合わせたオリジナルな音声を合成できるAIです。自然な感情表現やイントネーションを実現しており、​​日本語をはじめとする44カ国言語に対応しています。

また、DNN型音声合成と波形接続型音声合成の2つの方式を採用しており、短時間の収録が可能です。

AIT alk(エーアイ)

エーアイの音声エンジン「AI Talk」は、従来の「波形接続合成方式」と最新の深層学習技術を活用した「新DNN音声合成方式」を利用シーンに合わせて使い分けることで、人間らしさや豊かな音声を追求しています。

日本語の場合、喜怒哀楽の感情表現があり、子どもや関西弁にも対応。独自に研究開発する日本語解析技術の搭載により、最適な読みやアクセントを割り出すことで、より自然な日本語に近づけていることが強みです。

また、100名以上の話者、60種類以上の言語に対応し、自分の声も短時間の収録で音声合成用のデータとして使用できます。

コエステーション(coestation)

coestationの「コエステーション」では、有名人や一般ユーザーの声をデータベース化しており、「コエ」という声の素(データ)とテキストを音声合成エンジンに入力すると合成音声がつくれます。

喜び、怒り、悲しみといった感情や抑揚、話速などの調整が可能で、利用シーンに合わせた表現が可能です。

IVRy(IVRy)

ITRyはAI音声が会社や店舗の電話応対に対応し、質問回答や電話の取次を全て自動化する音声合成AIです。テキストの設定が簡単で、会社のサービスに合わせた案内ができます。

24時間電話対応ができるため、業務の効率化や負担軽減に役立ちます。

CoeFont(株式会社CoeFont)

株式会社CoeFontは「いい声を、いつでも、手軽に、使いたい分だけ」をコンセプトにAI音声プラットフォーム「CoeFont」を提供しています。すでに生成済みの有名人の声を使用できるほか、だれでも安価に簡単に声を録音して合成でき、使用できます。

また、声を失う可能性のある方への「ライフサポートプラン」の取り組みが行われており、社会福祉にも寄与しています。

業界別・企業での音声合成導入事例10選

ここからは、業界別に音声合成の導入事例をご紹介します。

【医療・福祉】 声を失う可能性のある方へのライフサポートプラン

「CoeFont」は声帯摘出手術やALSによって声を失った、または失う可能性がある方の声を残せるライフサポートプランに活用されています。

アカウントに登録し、自分の声を収録すると、音声が合成されます。スマホなどで入力したテキストを合成された自分の声で読み上げてくれるため、より自然な形で会話ができるというものです。

音声合成AIの技術を使ったこの取り組みは「ソーシャルプロダクツ・アワード2023」の優秀賞を受賞しました。ほかには、吃音症の発声に悩みを持つ方々へのサービス提供も行っています。

【医療】 秋田大学医学部附属病院・手術前に音声合成で作成したスライドを使用

秋田大学医学部附属病院では、手術前に音声合成で作成したスライドを使用しました。それまでは患者さんへの説明に約1時間を要していましたが、なかなか理解が進まないことが課題でした。

AITalkを活用して説明スライドを作成したところ、AIとはいえ音声の感情設定やスピード調整ができるため、温かみのある声で伝えられており、評価もよいそうです。

病院側は、AIの導入によって、患者さんがスライドをみている間にカルテや書類の準備ができ、業務が効率化できました。また、編集が簡単でシナリオを入れるだけで音声が作成できる点も評価しています。

【鉄道・バス】 南海電鉄の車内放送にAI音声が採用

音声合成_005

「ReadSpeaker」の日本語と英語の音声合成AIが、南海電気鉄道株式会社が運営する南海本線の各支線の車内放送として利用されています。

車両のGPS自動放送システムと合わせることで、電車内の放送が自動化されました。合成音声AIを活用することで、放送の文章の即時変更も簡単にできるため、緊急時や変更がある際にも、同一音声で簡単に案内できます。

【教育】 タカラトミーの読み聞かせスピーカー「coemo」​​

2022年9月に発売した読み聞かせスピーカー「coemo」は、子どもを寝かしつけるときに活躍する教育玩具です。AI音声合成技術を活用して、家族の声とそっくりな音声で童話などを読み聞かせてくれます。

「日本おもちゃ大賞」エジュケーショナル・トイ部門、大賞や「キッズデザイン賞」特別賞などを受賞しています。

【自治体】 防災行政無線に全国の自治体の半数が音声合成を利用

高品質音声合成エンジン「AITalk」は、2024年2月現在、累計導入が880市区町村を超え、全国1,724市区町村のうち50%以上の自治体で防災行政無線として利用されています。

AITalkは、広域放送でも聞き取りやすい落ち着いた声での合成音声を提供中。より緊急性を伝えやすい音声の開発を目指して防災行政無線メーカー各社や自治体との共同実験を継続しています。

【自治体】 新潟県長岡市のウェブサイトでホームページ読み上げ

新潟県長岡市のウェブサイトに「ReadSpeaker」のホームページ読み上げ機能「webReader」が採用されました。

長岡市では、市内企業の海外ビジネス促進とグローバル化に対応した高度人材の確保・活用のため、ベトナムビジネス交流会を開催しています。留学生や実習生を数多く受け入れ、現在は約500人のベトナム人が居住しているそうです。

そこでベトナム語の音声読み上げを導入し、居住しているベトナム人にも利用しやすいウェブサイトを実現しました。音声読み上げボタンをワンクリックするだけで音声が流れ、利用もしやすいと好評です。

【小売・飲食】 スシローの自動受付案内システム

音声合成_006

スシローを運営する株式会社FOOD&LIFE COMPANIESは、お客様満足度を向上させるため、自動受付・案内システムを導入しました。このシステムには「ReadSpeaker」の音声合成が採用されています。

来店したお客さんがタッチパネルでチェックインすると、音声案内で人手を介さず席まで案内してくれます。さらに待合スペースでも音声案内があり、順番が来たことを知らせてくれます。非対面・非接触を実現しつつ、店舗オペレーションの省力化も図れる点もメリットです。

【コールセンター】 AI電話代行サービスで省人化

​石川樹脂工業株式会社は、自社ブランドの立ち上げによって電話対応が増え、作業の中断が頻繁に発生していたため、電話応答の自動化を目的にAI電話代行サービスINRyを導入しました。

IVRyの導入により、電話対応が録音機能やSMS通知で効率化し、顧客満足度の向上が実現しました。

【ゲーム】 全ての情報を読み上げ・カブトクワガタゲーム

Nintendo Switchでリリースされた「カブトクワガタゲーム」に「ReadSpeaker」の音声合成によるテキスト読み上げ機能を導入し、アクセシビリティが向上しました。

ゲーム内のテキストや文字情報をリアルタイムで読み上げる機能によって、視覚障害者や漢字が読めない子どもたちがスムーズにゲームをプレイできるようになりました。

​​ オルツのAIクローンも音声合成を使用

オルツでは、P.A.I(パーソナル人工知能)やAIクローン技術の開発を進めており、2023年に開発した大規模言語処理モデル「LHTM-2」を個性化させ、AIクローンの社会実装を進めています。

「LHTM-2」はOpenAIの提供するGPT-3と同水準のパラメータ数で構成されており、機械翻訳や自動要約、テキスト生成、対話などさまざまな用途に利用できるものです。この「LHTM-2」に個人のライフログを入力することで、個人の言語活動に類似したモデルを開発しました。

さらに、「AITalk」を開発する株式会社エーアイと手を組むことで、音声合成の技術を生かして、AIクローンの声に活用しています。

まとめ

AIによる音声合成は、幅広い分野で活用が進み、困りごとの解決に役立っています。従来からの懸念点である、イントネーションや発話の不自然さ、AIが苦手とする感情表現なども少しずつ改善されつつあり、AIによる音声合成は今後もますます可能性のある分野だといえます。

オルツでは、AIクローン(パーソナル人工知能)をはじめとするAI開発を行っており、課題のヒアリングをもとに、最適なAIソリューションを提案します。企画から実証実験、実装までお客様に寄り添って実施しますので、AI開発をご検討の際はぜひお気軽にお問い合わせください。

関連記事

開発 2024年7月1日

自然言語処理(NLP)とは?AIとの関係や活用事例をわかりやすく紹介

自然言語処理(NLP)とは、人間が日常的に使っている自然言語をコンピュータが理解し処理する技術のこと...

開発 2023年4月7日

ChatGPTとGPTの違いを解説!自然言語処理技術の特徴と利用法

自然言語処理技術は、近年大きな進歩を遂げています。その中でも、ChatGPTとGPTは最先端の技術と...

COMPANY

LOCATION

HEAD OFFICE

〒106−0032
東京都港区六本木7−15−7 新六本木ビル 402

Service