五维评估模型

本系统从以下五个维度综合计算中文文本的阅读难度:

维度权重计算方式数据来源
字频难度×10汉字在大型语料库中的出现频率Jun Da 汉字频率表(9,933字)
词频难度×10词汇的分级等级 + BCC语料库词频分级词表(5,056词,L1-L15)
句法难度×8平均句长 + 复句比例 + 从句密度正则句法分析 + jieba分词
语义难度×5学术术语密度 + 抽象名词密度术语后缀词库 + 修辞触发模式
语篇难度×3段落长度 + 结构复杂度文本结构分析
D等级对照表
等级分值对应年级
D1100–1153-4岁 小班
D2115–1304-5岁 中班
D3130–1455-6岁 大班
D4145–165一年级
D5165–185二年级
D6185–210三年级
D7210–235四年级
D8235–260五年级
D9260–290六年级
等级分值对应年级
D10290–320初一
D11320–350初二
D12350–385初三
D13385–425高一
D14425–465高二
D15465–500高三
D16500–550大学低年级
D17550–600大学高年级
D18600+研究生
复合难度公式

D值采用非线性复合公式,难度维度之间存在交互效应——文本在多个维度上同时困难,整体难度呈指数增长:

linear = 10×字频 + 10×词频 + 8×句法 + 5×语义 + 3×语篇
D = 100 + linear × (1 + linear / 170)