字符频率分析器
指导
字符频率分析器
粘贴任意文本,立即查看每个字符出现的频率。字符频率分析器会统计每个字母、数字或符号,进行排序,显示百分比,并生成可视化条形图,以便您能快速识别模式。它在密码分析、语言学作业、密码审计、内容审计以及需要精确统计文本中内容时是必不可少的工具。
与单词计数器不同,此工具在字符级别上工作。这使其特别适用于破解简单的替换密码,其技巧是将观察到的字母分布与源语言的预期分布进行比较。开启“与英文基准对比”选项后,工具将显示每个字母的标准英文频率以及您的文本与之的偏差。
如何使用
- 将文本粘贴到输入框中,或点击“尝试示例”以加载示例文本。
- 选择您想要统计的内容: 仅字母, 字母和数字, 可打印字符(不含空格), 或者 所有字符.
- 切换 敏感大小写 A 和 a 是否应分别计数。
- 对于替换密码分析,保持 与英文基准对比 开启以查看与标准 ETAOIN 分布的偏差。
- 点击任意列的表头可按该列排序。使用 复制CSV, Download CSV, 或者 复制 JSON JSON 文件 导出表格。
特征
- 频率表 – 排名、字符、计数、百分比,以及每个唯一字符的成比例条形图。
- 四种计数模式 – 仅字母、字母和数字、可打印字符(不含空格),或所有代码点,包括空格和标点符号。
- 大小写敏感切换 – 将 A 和 a 视为相同字符,或分别计数。
- 英文基准对比 – 在计数字母时,查看预期的英文百分比以及在同一行中的正负偏差,颜色编码显示。
- 香农熵 – 查看文本的每字符香农熵,以及其字母表大小的理论最大值,这在评估密码强度和随机性方面非常有用。
- 可排序列 – 点击任意表头可按排名、字符、计数、百分比或偏差排序。
- 支持 Unicode – 支持所有代码点,并为空白字符和控制字符提供友好的标签。
- CSV 和 JSON 导出 – 可复制或下载表格,包括字符代码点,用于进一步分析。
- 实时更新 – 结果在您输入或更改选项时会自动刷新。
- 私有设计 – 所有操作都在浏览器中完成,您的文本不会上传。
常问问题
-
什么是字符频率分析?
字符频率分析是统计文本中每个字符出现的频率,并将其分布与预期基准进行比较的实践。它可追溯到9世纪阿拉伯数学家阿尔-Kindi,他使用该方法破解替换密码,至今仍是古典密码分析、统计语言学以及许多现代压缩和语言检测算法的基础。
-
英语中最常见的字母有哪些?
在标准英语文本中,顺序大致为 E、T、A、O、I、N、S、H、R、D、L、U —— 常被记为 ETAOIN SHRDLU。E 几乎是最常见的,约占12.7%,其次是T(9.1%)和A(8.2%)。最不常见的字母是J、Q、X和Z,每个都低于0.2%。不同语料库的实际频率略有差异,但总体排名在现代英语文本中保持惊人稳定。
-
如何使用频率分析破解凯撒或替换密码?
对于单字母替换密码,统计密文中的字母并按频率排序。将最频繁的密文字母映射到E,次频繁的映射到T,依此类推,然后利用常见双字母(如TH、HE、IN)、三字母(如THE、AND、ING)和短词进行优化。在文本量足够时,原始语言的特征会显现出来。对于多字母替换密码(如维吉尼亚密码),通过将分布分散到多个字母表来削弱此攻击,但通过重合指数和卡西斯基分析仍可检测到周期性结构。
-
什么是香农熵?为什么这里会显示它?
香农熵衡量的是从给定源中符号的平均信息量,以每字符比特表示。一个完全均匀的字母表具有最大熵,等于log2(N),其中N为符号数量。真实文本远不如随机——英语散文在考虑上下文后,每字符熵约为1.0到1.5比特。将观察到的熵与最大值进行比较,可以判断字符串的可预测性,这在检查随机性、评估密码强度和检测异常内容时非常有用。
-
为什么我的文本与英文基准存在偏差?
原因有多种:样本较短,噪声较大,自然偏离总体平均值;技术性写作会偏向于专业术语中使用的辅音字母;非英语单词、人名或代码会引入频率异常的字母;以及故意的风格选择,如省略特定字母的“lipogram”会完全抑制某些字母。在长篇普通散文中出现显著偏差可能是加密、混淆或使用非英语语言的特征。
