広告が嫌いですか? 行く広告なし今日 

会話からテキストへ

開発者文章

広告削除する？

入力

出力

クライアント側

広告削除する？

ガイド

会話からテキストへ

ブラウザに組み込まれているWeb Speech APIを使用して、音声をリアルタイムでテキストに文字起こしします。音声データはどのサーバーにも送信されないため、これは完全にプライベートで無料の音声認識ツールであり、ブラウザ内で直接機能します。

使用方法

ドロップダウンから言語を選択し、「聞き取り開始」ボタンをクリックします。ブラウザから求められた場合は、マイクの権限を許可してください。マイクに向かってはっきりと話し、音声がリアルタイムで文字起こしされるのを見てください。完了したら「聞き取り停止」をクリックし、文字起こし内容をコピーまたはダウンロードしてください。

機能

13の言語に対応 – 英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、日本語、韓国語、中国語、アラビア語、ヒンディー語、ベトナム語など
リアルタイム文字起こし – 話していると単語が表示され、中間結果が即座に表示されます
連続モード – 手動で停止するまで聞き取りを続けることができ、長いディクテーションセッションに最適です
完全なプライバシー – すべての処理はWeb Speech APIを使用してブラウザのローカルで行われるため、音声データはアップロードされません
コピーしてダウンロード – 文字起こし内容をクリップボードに簡単にコピーしたり、テキストファイルとしてダウンロードしたりできます

広告削除する？

 よくある質問

Web Speech APIとは何ですか？

Web Speech APIは、音声認識および音声合成機能を提供するブラウザネイティブインターフェースです。外部サービスやプラグインを必要とせずに、ウェブアプリケーションが話し言葉をテキストに変換できるようにします。このAPIはブラウザエンジンに直接実装されており、ChromeとEdgeはGoogleの音声認識サーバーを、SafariはAppleのSiri音声認識を使用します。
自動音声認識（ASR）はどのように機能しますか？

自動音声認識は、いくつかの段階を経て、話し言葉の音声をテキストに変換します。まず、音声信号が処理され、小さなフレームに分割されます。音響モデル（通常は深層ニューラルネットワーク）がこれらのフレームを分析し、音素（基本的な音の単位）を特定します。次に、言語モデルが、音素とターゲット言語における単語の組み合わせの統計的確率に基づいて、最も可能性の高い単語の順序を決定します。
音声認識の精度に影響を与える要因は何ですか？

音声認識の精度は、背景ノイズレベル、マイクの品質、話す明瞭度と速度、アクセントや方言、使用される語彙の複雑さなど、いくつかの要因に依存します。また、音声サンプルレート、信号対雑音比、言語モデルの訓練データのサイズなどの技術的要因も、認識品質において重要な役割を果たします。
音声認識と自然言語処理の違いは何ですか？

音声認識（ASR）は、話し言葉の音声信号を書き言葉のテキストに変換することに特化しています。自然言語処理（NLP）は、テキスト形式で人間の言語を理解、解釈、生成を扱うより広範な分野です。ASRは音声からテキストへの変換を処理し、NLPは感情分析、翻訳、要約、意図分類などのタスクのために結果のテキストを処理します。