Onkyo SPEECH ONKYO独自の音声認識アルゴリズムで音声データをテキスト化 Onkyo SPEECH ONKYO独自の音声認識アルゴリズムで音声データをテキスト化
音声認識エンジン

Onkyo SPEECH

ONKYO独自の音声認識アルゴリズムで
音声データをテキスト化

Onkyo SPEECH(オンキヨースピーチ)は当社独自の音声認識アルゴリズムであり、音声データをテキスト化するソフトウェアです。お客様の通話データを学習し、独自のラベル付けを行うことで高精度な音声認識を実現。幅広い年齢層のお客様の電話回線越し音声認識を得意とします。

独自のAI活用技術

コールセンター向けに電話音声に特化した音声認識エンジン。

電話口の男性の声をOnkyo SPEECHが解析
高い音声認識率

ディープラーニングによる音響分析を活用。滑舌に老化が見られるシニア世代の音声も84%の認識率を誇ります。

お年寄りの声をOnkyo SPEECHが解析
カスマイズ対応

方言や業界独自の単語を後追い学習させるカスタマイズを行います。

業界独自の単語や方言が混じった会話でもOnkyo SPEECHが解析

Onkyo SPEECH のディープラーニング

音声認識の特徴として、学習時と全く異なる音声や未知単語が含まれる文章では、認識率が低下する問題があります。高い認識精度を持つ他社の汎用音声認識システムを使用した場合でも、電話の音声、専門用語が含まれる文章、方言を含む話し言葉の場合、認識精度は大幅に低下します。Onkyo SPEECHでは、カスタマイズ学習することで音声認識率を向上させていきます。

言語モデル更新

音声認識結果から誤っている部分のテキスト学習を行います。

誤っている部分のテキスト学習を行うOnkyo SPEECH
音響モデル更新

業界・環境特有の音声の書き起こしを行い、学習させます。

業界や環境特有の単語の学習を行うOnkyo SPEECH

音響モデルにディープラーニングを用いたシステムを採用し、音響分析で抽出した音声特徴量を学習し分類を行います。ディープラーニングのモデルにはボトルネック層を用いた”factored TDNN”をエンジンに採用しており、音声の重要箇所を効率的に学習します。特に高齢者層の認識について、他社の音声認識システムと比較して高い認識率を有します。

Onkyo SPEECHはこんな業態に向いています

会話や話声をテキストに保存しなければならない状況に最適です。

  • 会議議事録可視化
  • 文字起こし業務の簡易化
    支援ツール
  • 営業電話での顧客との
    やりとりの可視化
  • 工場現場等での
    作業者メンバー間との
    情報共有の簡易化

ご利用料金

ご利用方法はバッチ版、ストリーミング版の2種類をご用意しております。
どちらが適しているのかご不明な場合はお問い合わせください。

API提供(バッチ版)

チャンネル数 費用
1 ¥10,000
10 ¥59,800
20 ¥119,600
30 ¥179,400

1ヶ月使い放題
チャンネルは同時アクセス数
※3IDからお願いしております。

API提供(ストリーミング版)

チャンネル数 費用
1 ¥10,000

学会採択論文

Onkyo SPEECHの音声認識は学会で論文を発表されています。

【2021】

O-COCOSDA 2021 Best Paper Award
Nobuya Tachimori (Onkyo Corporation, Japan),Sakriani Sakti and Satoshi Nakamura(Nara Institute of Science and Technology, Japan)
MULTI-ENCODER SEQUENTIAL ATTENTION NETWORK FOR CONTEXT-AWARE SPEECH RECOGNITION IN JAPANESE DIALOG CONVERSATION

https://ieeexplore.ieee.org/document/9660580

よくある質問

よくある質問

バッチ版とストリーミング版の違いは何ですか?

バッチ版はファイル単位のAPIリクエストになり、ストリーミングは音声ストリーム毎のAPIリクエストになります。ご希望のアプリケーションがリアルタイム性をご要望でしたらストリーミング版となり、事後確認やログの可視化などであればバッチ版をおすすめしております。

バッチ版やストリーミング版のテキスト化される時間はどれくらいでしょうか

バッチ版はファイル単位となるため30分の音声ですと、約30分~1時間になります。リアルタイム版は音声ストリームの区切り(話の途切れ)から5~10秒とお考えください。バッチ版、リアルタイム版のデモは無料でお使いいただけますので、お問い合わせください。

導入期間はどれくらいでしょうか。

APIキーをお渡しするまでに1~2日となります。

通信費についてはどれくらいかかりますか。

通信費込みの価格となり、使い放題のプランとなります。

オンプレ版はありますか。

現在開発中のため、ご提供までにお時間がかかります。ボリュームに応じて検討可能ですのでお問い合わせください。

音声認識の精度はどれくらいでしょうか。

WER(Word Error Rate)で評価しておりまして、認識率85%以上となります。80%以下の場合は、テキスト学習あわせて無償でお受けさせていただいています。

音声認識の改善期間はどれくらいかかりますか。

テキスト学習で2週間、音声学習で3週間を考えております。

音声認識が80%以上の場合、さらに改善したい場合は対応できますか。

可能です。有償でのご対応となりますので、具体的な費用についてはご相談ください。

パートナー企業

Onkyo SPEECHはさまざまな企業様にご利用いただております。