Cohere、トランスクリプション専用のオープンソース音声モデルを発表

Cohere、トランスクリプション専用のオープンソース音声モデルを発表

Cohereは、トランスクライブというオープンソースの自動音声認識モデルを発表しました。このモデルは、転写タスクに特化しており、20億のパラメータを持ち、14の言語をサポートしており、競合するモデルよりも高い精度を誇っています。トランスクライブは、1分間に525分間の音声を処理し、CohereのプラットフォームであるNorthに統合される予定であり、API経由でもアクセス可能です。これは音声認識技術への需要の増加を反映しています。

Key Points

  • Cohereは、転写に焦点を当てた最初の音声モデルであるTranscribeを発表しました。このモデルには20億のパラメータがあり、消費者向けのGPUに適しており、14の言語をサポートしています。
  • Transcribeは、Hugging FaceのleaderboardでZoom ScribeやIBM Granite 4.0などの競合他社を上回る5.42の単語エラー率(WER)を達成しました。
  • 強力な性能にもかかわらず、Transcribeはポルトガル語、ドイツ語、スペイン語の転写で不振でした。
  • このモデルは1分間に525分のオーディオを処理できるため、高い効率を示しています。
  • Transcribeは、CohereのNorthプラットフォームに統合する予定であり、APIを介して無料で利用できる予定です。
  • GranolaやWispr Flowなどのアプリケーションの需要が高まっていることから、音声認識ツールへの関心が高まっています。

Relevance

  • Transcribeのローンチは、様々なセクターでAIによる転写サービスの採用が増加しているトレンドと合致しています。
  • 2025年までには、特に自然言語処理や音声認識といったAI技術がビジネスプロセスに欠かせないものとなり、生産性が向上すると予測されています。
  • Cohereのモデルは、企業が費用対効果の高い高性能なソリューションを求める中で、AI分野で競争力のある環境に貢献しています。

CohereのTranscribeの導入は、音声認識技術の重要な革新であり、ユーザーに効率的で多言語対応の転写ツールを提供すると同時に、ビジネスアプリケーションでの音声技術の成長する役割を強調しています。

Download the App

Stay ahead in just 10 minutes a day

Article ID: a71973b6-dae1-4e70-88bb-d781a73e210c