文字頻度分析機
ガイド
文字頻度分析機
任意のテキストを貼り付け、各文字がどれだけ出現するかを瞬時に確認できます。文字頻度分析ツールは、すべての文字、数字、記号をカウントし、順位を決定し、パーセンテージを表示し、視覚的な棒グラフを描画することで、パターンを一目で把握できます。これは暗号解析、言語学の宿題、パスワードの検証、コンテンツの検証、またはテキスト内の正確な出現頻度を確認する際の必須ツールです。
単語カウンターとは異なり、このツールは文字レベルで動作します。これは単純な置換暗号を破る際に特に有用です。その鍵は、観測された文字分布を元の言語の期待される分布と比較することです。『英語ベースラインと比較』を切り替えると、各文字について標準的な英語頻度と、あなたのテキストがそれからどれだけずれているかを表示します。
使用方法
- テキストを入力ボックスに貼り付け、または『例を試す』をクリックしてサンプルを読み込みます。
- カウントしたい項目を選択してください: 文字のみ, 文字と数字, 印刷可能な文字(空白なし)、 または すべての文字.
- トグル 大文字と小文字を区別する Aとaを別々にカウントするか。
- 置換暗号の作業では、 英語ベースラインと比較 をオンにし、標準的なETAOIN分布からのずれを確認してください。
- 任意の列をヘッダーをクリックして並べ替えます。使用 CSVをコピー, CSVをダウンロード、 または JSONをコピー をテーブルをエクスポートします。
機能
- 頻度表 – 順位、文字、カウント、パーセンテージ、およびすべてのユニークな文字に対する比例棒。
- 4つのカウントモード – 文字のみ、文字と数字、印刷可能な文字(空白なし)、またはすべてのコードポイント(スペースと記号を含む)。
- ケース感度の切り替え – Aとaを同じ文字と見なすか、または別々にカウントするか。
- 英語ベースラインの比較 – 文字をカウントする際、標準的な英語のパーセンテージとそのずれを同じ行に表示し、色で上下で色分けします。
- シャノンエントロピー – あなたのテキストのビットごとのエントロピーと、そのアルファベットサイズの理論最大値を表示し、パスワードの強度やランダム性のチェックに役立ちます。
- 並べ替え可能な列 – 任意のヘッダーをクリックして、順位、文字、カウント、パーセンテージ、またはずれで並べ替えます。
- Unicode対応 – すべてのコードポイントを処理し、空白や制御文字には親しみやすいラベルを表示します。
- CSVおよびJSONエクスポート – テーブルをコピーまたはダウンロードし、文字コードポイントを含めてさらに分析できます。
- リアルタイム更新 – 入力やオプションの変更時に結果が自動で更新されます。
- プライベート設計 – すべての処理はブラウザ内で行われ、テキストはアップロードされることはありません。
よくある質問
-
文字頻度分析とは何ですか?
文字頻度分析とは、テキスト内の各文字がどれだけ出現するかをカウントし、その分布を期待されるベースラインと比較する技術です。これは9世紀のアラブ数学家アル・カインディが置換暗号を破る際に使用した技術であり、古典暗号解析、統計言語学、そして多くの現代の圧縮や言語検出アルゴリズムの基礎となっています。
-
英語で最も一般的な文字はどれですか?
標準的な英語テキストでは、順番は大体E、T、A、O、I、N、S、H、R、D、L、Uとされ、よく「ETAOIN SHRDLU」と覚えられます。Eは12.7%ほどで最も多く、Tは9.1%、Aは8.2%です。最も少ない文字はJ、Q、X、Zで、それぞれ0.2%未満です。実際の頻度はコーパスによってわずかに異なるものの、現代英語のテキストにおける順位は非常に安定しています。
-
カイザーまたは置換暗号を頻度分析でどのように破りますか?
単一アルファベット暗号の場合、暗号文の文字をカウントし、順位を決定します。最も頻出の暗号文の文字をE、次にT、そしてそれ以降を順にマッピングし、共通のディグラム(TH、HE、IN)、トリグラム(THE、AND、ING)、および短い単語を使って調整します。十分なテキストがあると、元の言語が明らかになります。ポリアルファベット暗号(例:ヴィジネル)は、分布を複数のアルファベットにスプレーすることでこの攻撃を弱めますが、周期的な構造はインデックス・オブ・コインシデンスやカシスキー検査によって依然として検出可能です。
-
シャノンエントロピーとは何ですか?そしてここに表示されている理由は?
シャノンエントロピーは、あるソースからの符号の平均情報量をビットごとに表す指標です。完全に均一なアルファベットでは、N個の符号に対して最大エントロピーはlog2(N)になります。実際のテキストは非常にランダムではありません——英語の文章は、文脈を考慮すると1.0から1.5ビットごとの文字程度です。観測されたエントロピーと理論最大値を比較することで、文字列の予測可能性を確認でき、ランダム性のチェック、パスワードの強度評価、および異常コンテンツの検出に役立ちます。
-
なぜ私のテキストが英語ベースラインからずれているのですか?
いくつかの理由があります:短いサンプルはノイズがあり、自然に集団平均からずれています;技術的な文章は専門用語に使われる共鳴文字に偏りを生じさせます;非英語の単語、名前、コードは異常な頻度を持つ文字を導入します;また、意図的なスタイルの選択(例:リポグラム)により、特定の文字を完全に抑制することもあります。長い普通の文章において、大きなずれは暗号化、暗号、または英語以外の言語の指紋である可能性があります。
恵 スコアボードが到着しました!
スコアボード ゲームを追跡する楽しい方法です。すべてのデータはブラウザに保存されます。さらに多くの機能がまもなく登場します!
