「audioコーパス データセット」、音声認識AIの進化を支える”職業面談”のデータセット先行販売開始

「audioコーパス データセット」、音声認識AIの進化を支える”職業面談”のデータセット先行販売開始

“audioコーパス データセット”提供開始、AI音声認識開発向けに最適化

音声認識AIの開発を支える “audioコーパス データセット” の先行販売が開始されました。本データセットは音声とテキストのセットとして構成されています。既にタグ付け等が施された整形データの形で提供されるため、開発者はそのまま本データを利用することで効率的にAIの学習に取り組むことが可能となります。また、職業面談のデータセットが特に充実しており、実社会での音声認識AIの実用化を加速することが期待されます。

この記事の要約

  • “audioコーパス データセット” の先行販売開始。
  • 音声とテキストをセットにした、AI開発に適した整形データ。
  • 職業面談のデータセットが充実、実社会での音声認識AIの実用化を加速予定。
これにより、データセットの提供時間数は150時間を超えますので、AIに学習させるデータをゼロから作成する手間が省け、必要な会話区分に沿ったAI開発をスピーディーに進めることができるようになります。

audioコーパス データセットとは

audioコーパス データセットは、音声とテキストをセットにした発話データとなります。

AI学習の要件に合わせ、既にタグなどを付与した整形データのため、そのまま開発にご利用いただけるデータ構造となっています。

※音声データ:wavファイル/テキストデータ:csvファイル、txtファイル、eafファイル にてご提供します

<音声データ 仕様>

  • 会話区分(営業商談、コールセンター、対談、面談など)によるリアルな会話を収録

  • 一対一の会話において、RとLでチャンネルを分けたステレオ収録

  • 著作権や個人情報などの人の声に関する権利関係を整理(※本人の許諾なく声を使用することは固く禁じられています)

■audioコーパス データセットの3つの強み

<テキストデータ 仕様>

  • 相づちやどもり なども、忠実にすべて書き起こし

  • フィラー、言い間違いなどの抽出に、6つのタグを付与

  • 発話ごとに区間を区切り、細かく発話を利用・分析することが可能

■「日本語話し言葉コーパス」(CSJ)の仕様に準じたタグ付与

■「記者ハンドブック」(共同通信社発刊)の仕様に準じた日本語表記

日本語文章は、表記ゆれ、誤字脱字、聞き間違いなど気にすべき点が多数あります。

audioコーパスでは「記者ハンドブック」(共同通信社発刊)を採用し、表記ルールを徹底しています。

【リリースの背景】

発話データは権利フリーのものが市場にほとんど存在しません。

理由として、人の声というのは「個人情報」としても扱われ、許諾なく使用することができないことが挙げられます。

そのため、システム開発において発話データが必要になった際は、音声データを自前で調達し、またそれを一から書き起こさなければなりません。

一方で、発話データを学習させる際は「表記のゆらぎ」など気にかけなければいけないことも多く、品質を高めるためには手間と時間がかかります。

そんな課題を解決するため、発話データの製作所として、ニーズを調査し、必要なデータセットを販売しているのがaudioコーパス株式会社です。

今回リリースする『面談』のデータセットは、自然発話が多く、汎用性も高くて扱いやすいデータとなっています。

【こんな方におすすめ】

  • 音声認識AIシステムを開発していて、学習用データが必要な方

  • システムの提供先(利用目的)に変化が生じ、別の会話カテゴリが必要になった方

  • 人の声のデータを探している方

  • コーパスデータを探している方

  • 自然発話を分析・研究されている方

【購入の流れ】

※会話テーマにより、お好きなカテゴリをお選びいただけます

商品はすべてサンプルをご提供できますので、ご興味をお持ちの方は「お問い合わせ」画面より、

お申し付けいただければ幸いです。

audioコーパス株式会社では、音声認識AIのさらなる利便性向上に取り組みます。

企業概要

audioコーパス株式会社

代表者:森井直哉

所在地:東京都豊島区西池袋2-37-4 IKE・Biz 4F

事業内容:アノテーションデータ製作ならび販売、請負作成、作成支援

企業Webサイト:https://www.otocorpus.com/

■取材のお申し込み

本リリースに関する取材のお申し込み、また製品・サービスに関するお問い合わせは下記までご連絡ください。

お問い合わせフォーム : こちらからお問い合わせください

Email:contact@otocorpus.com

記事選定/ライター
NFT-TIMES 長尾英太

ブロックチェーン技術記者、長尾といいます。ブロックチェーンについては投資/投機的な観点よりも、技術として未来の社会でどのように取り込まれていくかを中心に発信したいです。最近ではNFTやメタバースなどに注目しています。 1989年11月7日千葉出身。大学卒業後IT企業に入社。2017年にブロックチェーンの技術ライターとして独立。 Twitter
ページトップへ