📚 关于文本难度检测
了解阅星图的科学评估方法和分级体系
五维评估模型
本系统从以下五个维度综合计算中文文本的阅读难度:
| 维度 | 权重 | 计算方式 | 数据来源 |
|---|---|---|---|
| 字频难度 | ×10 | 汉字在大型语料库中的出现频率 | Jun Da 汉字频率表(9,933字) |
| 词频难度 | ×10 | 词汇的分级等级 + BCC语料库词频 | 分级词表(5,056词,L1-L15) |
| 句法难度 | ×8 | 平均句长 + 复句比例 + 从句密度 | 正则句法分析 + jieba分词 |
| 语义难度 | ×5 | 学术术语密度 + 抽象名词密度 | 术语后缀词库 + 修辞触发模式 |
| 语篇难度 | ×3 | 段落长度 + 结构复杂度 | 文本结构分析 |
D等级对照表
| 等级 | 分值 | 对应年级 |
|---|---|---|
| D1 | 100–115 | 3-4岁 小班 |
| D2 | 115–130 | 4-5岁 中班 |
| D3 | 130–145 | 5-6岁 大班 |
| D4 | 145–165 | 一年级 |
| D5 | 165–185 | 二年级 |
| D6 | 185–210 | 三年级 |
| D7 | 210–235 | 四年级 |
| D8 | 235–260 | 五年级 |
| D9 | 260–290 | 六年级 |
| 等级 | 分值 | 对应年级 |
|---|---|---|
| D10 | 290–320 | 初一 |
| D11 | 320–350 | 初二 |
| D12 | 350–385 | 初三 |
| D13 | 385–425 | 高一 |
| D14 | 425–465 | 高二 |
| D15 | 465–500 | 高三 |
| D16 | 500–550 | 大学低年级 |
| D17 | 550–600 | 大学高年级 |
| D18 | 600+ | 研究生 |
复合难度公式
D值采用非线性复合公式,难度维度之间存在交互效应——文本在多个维度上同时困难,整体难度呈指数增长:
linear = 10×字频 + 10×词频 + 8×句法 + 5×语义 + 3×语篇
D = 100 + linear × (1 + linear / 170)
D = 100 + linear × (1 + linear / 170)