音声認識エンジン
Onkyo SPEECH(オンキヨースピーチ)は当社独自の音声認識アルゴリズムであり、音声データをテキスト化するソフトウェアです。
独自のAI活用技術
独自の音声認識エンジンを自社開発。電話音声も得意です。
幅広い年齢層の認識
ディープラーニングによる音響分析を活用。滑舌に老化が見られるシニア世代の音声にも84%の認識率を誇ります。
カスマイズ対応
方言や業界独自の単語を後追い学習させるカスタマイズを行います。
お客様のデータに独自のラベルを付けて学習をすることで、高精度な音声認識を実現。様々な環境・年齢層の発話を音声認識することが可能です。
特 徴
言語モデル更新
音声認識結果から誤っている部分のテキスト学習を行います。
音響モデル更新
業界・環境特有の音声の書き起こしを行い、学習させます。
音声認識の特徴として、学習時と全く異なる音声や未知単語が含まれる文章では、認識率が低下する問題があります。高い認識精度を持つ他社の汎用音声認識システムを使用した場合でも、電話の音声、専門用語が含まれる文章、方言を含む話し言葉の場合、認識精度は大幅に低下します。Onkyo SPEECHでは、カスタマイズ学習することで音声認識率を向上させていきます。
ディープラーニング
音響モデルにディープラーニングを用いたシステムを採用し、音響分析で抽出した音声特徴量を学習し分類を行います。ディープラーニングのモデルにはボトルネック層を用いた”factored TDNN”をエンジンに採用しており、音声の重要箇所を効率的に学習します。特に高齢者層の認識について、他社の音声認識システムと比較して高い認識率を有します。
会議内容の
自動可視化・
議事録の作成
文字起こし業務の
簡易化支援ツール
営業電話での
顧客とのやりとりの
可視化
AR / VR ゴーグルを
用いたコミュニケーションの可視化
こんな業態に
会話や話声をテキストに保存しなければならない状況に最適です。
ご利用料金
ご利用方法はバッチ版、ストリーミング版の2種類をご用意しております。どちらが適しているのかご不明な場合はお問い合わせください。
初回設定費 ¥0
月々の価格
バッチ版 〈 1ヶ月使い放題、ch(チャンネル)は同時アクセス数 〉
ストリーミング版
・最低1年間の契約となります
・翌月末のお支払いとなります
学会採択論文
Onkyo SPEECHの音声認識は学会で論文を発表されています。
【2021】
O-COCOSDA 2021 Best Paper AwardNobuya Tachimori (Onkyo Corporation, Japan),Sakriani Sakti and Satoshi Nakamura(Nara Institute of Science and Technology, Japan)MULTI-ENCODER SEQUENTIAL ATTENTION NETWORK FOR CONTEXT-AWARE SPEECH RECOGNITION IN JAPANESE DIALOG CONVERSATION
https://ieeexplore.ieee.org/document/9660580
よくある質問
バッチ版はファイル単位のAPIリクエストになり、ストリーミングは音声ストリーム毎のAPIリクエストになります。ご希望のアプリケーションがリアルタイム性をご要望でしたらストリーミング版となり、事後確認やログの可視化などであればバッチ版をおすすめしております。
バッチ版はファイル単位となるため30分の音声ですと、約30分~1時間になります。リアルタイム版は音声ストリームの区切り(話の途切れ)から5~10秒とお考えください。バッチ版、リアルタイム版のデモは無料でお使いいただけますので、お問い合わせください。
API 利用時に入用となるAPI キーをお渡しするまでに1~2 日となります。
通信費込みの価格となり、使い放題のプランとなります。
現在開発中のため、ご提供までにお時間がかかります。ボリュームに応じて検討可能ですのでお問い合わせください。
WER(Word Error Rate)で評価しておりまして、認識率85%以上となります。80%以下の場合は、テキスト学習あわせて無償でお受けさせていただいています。
テキスト学習で2週間、音声学習で3週間を考えております。
可能です。有償でのご対応となりますので、具体的な費用についてはご相談ください。