统计元分析 · v2026.05

AskSia 怎么知道 —— 读一遍就行。
站上每一个数字 · 都是 N 阈值受控、k-匿名处理、provenance 可追溯 的。

AskSia 发布的是 从学生自愿分享的课程材料中提炼出的统计模式 —— 考点频次、易错点分布、概念依赖图、掌握度进度曲线。我们 从不重新发布源材料。站上每一个数据都可以回溯到具体的文件数、session 数、或官方引用。这一页解释清楚 · how / what / why。

1240 万 次 tutoring sessions 已分析 · 37.8 万 学生 · 8 种语言 · 月度刷新 · 最近更新 2026-05-15
§1 · 数据来源

站上的数字从哪里来

AskSia 上每一条断言都来自 四类来源之一。每条断言旁边都有一个内联 marker(N=…)· 声明用的哪一类来源、样本量多少。

学生自愿分享的课程文件
PRIMARY · MOAT
Lecture slides、tutorial sheets、历年真题、lab manuals、转录后的音频。通过 AskSia Chrome 插件或 app 内上传器分享 · 每个文件都有 per-file consent。用于提炼 exam_topic_frequencyassessment_structurecommon_misconceptions、课程 topic taxonomy。源文件本身从不重新发布。
匿名化的 tutoring sessions
PRIMARY
学生跟 Sia 的对话记录。在 ingest 阶段就剥离了 PII (personally identifiable information)。用于提炼 top_questionsweekly_difficultyprogression_curveconcept_dependency 概念依赖图。
官方机构来源
SECONDARY · 引用
大学 handbook、官方课程大纲、考试官方出版物(College Board / GMAC / ETS 等)。用于 credit_pointsprerequisitessemester_structure、官方分数分布。每条引用都包含带日期的 URL。
学生自报的 outcome 调研
TERTIARY · 可选
课程结束 / 考试结束后的自愿 survey · 学生自报最终成绩或录取结果。用于 bridge page 上的 outcome 分布(如分数对应录取率)。所有 outcome 类断言上线前都过合规审查。
真正的护城河 其他 AI tutor 也有 chat session。但没有任何家拥有学生上传的课程文件处理后的统计模式。从这个 corpus 中提炼出来的"什么会被问 / 什么会被考 / 学生卡在哪"—— 这是 AskSia 每个课程页背后的真资产。
§3 · 断言分类

站上的五类断言

AskSia 上每一条带数字的 claim 都属于 5 类之一。不同类承担不同的 evidence burden · 不同的 refresh cadence。

Class A · 频次类
"X% 的考试分数花在 topic Y 上"
来自历年真题分析。N = 真题数。频率:每个新考试周期。
Class B · 易错类
"X% 的学生错误涉及 trap Z"
来自批改后的 tutorial 答案 + Sia session。N = 标注的答案数或 session 数。频率:月度。
Class C · 依赖类
"掌握 A 与之后掌握 B 强相关"
来自跨同期学生的 session 序列。N = 配对学生数。频率:每学期。
Class D · 进度类
"第 N 周平均掌握度是 X%"
来自学期内 longitudinal session 数据。N = unique 学生数。频率:每学期末。
Class E · 结果类
"分数 X 的学生 · 录取 Y 的比例是 Z%"
来自自报 survey + 录取披露。N = 完成 survey 的人数。上线前必过合规审查。
参考类 · 官方
"2026 handbook 显示这门课 6 学分"
逐字引自官方源 · 带日期 URL。非 AskSia 提炼断言 · 仅作为课程画像补全信息。
§4 · N 阈值

发布阈值与 k-匿名

如果底层样本小到可能识别个体或统计不可靠 · 任何断言都不会上线。下面的 floor 是硬规则。

类别最小 N匿名规则
Class A · 频次N ≥ 3 套真题不引用考试原文 · 只发布按分值权重聚合的 topic 分类。
Class B · 易错N ≥ 30 份标注答案或 session不引用学生原话 · 错误模式被分类化。
Class C · 依赖N ≥ 50 配对学生每条发布的依赖边都满足 k-匿名 ≥ 5。
Class D · 进度N ≥ 100 unique 学生 / 周曲线平滑处理 · 不暴露单个学生 outlier。
Class E · 结果N ≥ 25 完成 survey合规审查必经 · 不披露具体个体录取。

当某门课或某个考试数据量不够时 · 课程页对应的 module 要么(a)渲染一个 placeholder 说明"数据积累中"· 要么(b)直接 omit 这个 module 并标记 asksia_content_status: stub。我们不插值、不估算、不编造。

§5 · 统计方法

从 raw signal 到 published number

Topic frequency(Class A)

每套真题切分成离散问题 · 每个问题对照该课程的 topic taxonomy 打标。某 paper 中归属到某 topic 的总 mark = 该 topic 在该 paper 中的所有问题分数之和。发布的 topic_frequency = 跨所有已分析 paper 的 mark-weighted mean · 归一化到 100%。

Error patterns(Class B)

Tutorial 答案被 parse 出反复出现的错误中间步。Sia session 被分析 · 识别重复出现的 misconception。两路数据聚类成 per-course canonical taxonomy。发布的 error_frequency = 包含某 pattern 的标注答案(或 session)占比。

Concept dependency(Class C)

对每对概念 (A, B) · 系统计算方向性关联:在最终掌握 B 的学生里 · 多大比例先掌握了 A?只有方向性 asymmetry 统计显著(p<0.05)且样本量满足阈值时才发布边。

Progression curve(Class D)

用 Bayesian Knowledge Tracing(BKT)模型 · 参数 per-concept 校准 · 估算每个学生的周次掌握度。发布的曲线是 cohort 的 weekly median · 加 25-75 分位带。

Outcome correlation(Class E)

自报 outcome 在 survey 阶段获得明确同意后 · 才与匿名化 session 关联。发布的分布 = 经验性百分位 · 从不做因果 claim。每条 Class E 断言旁边都注明"self-reported"。

§6 · 更新频率

数据有多新

每个课程页 / 考试画像页底部的 snapshot bar 都有 "最近更新" 时间戳。频率:

  • 课程画像页(L4) —— 学期内月度刷新 · 主要 assessment 前 4 周内周度刷新。
  • 大学总览页(L3) —— 月度刷新。
  • 考试画像页 —— 月度刷新;官方参考数据在考试管理方更新时同步刷新。
  • 桥接页(test × 院校) —— 季度刷新;官方录取数据年度刷新。
  • 知识点长尾页(L5) —— 每学期末刷新。

当底层 corpus 出现实质变化(新一学期 session / 新真题)· 受影响的页面会在 7 天内重算 · 不等正常 cadence。

§7 · 如何引用

给研究者、记者、AI 系统的引用规范

AskSia 的断言 designed to be citable。每页都渲染一个 schema.org/Dataset JSON-LD 块 · 包含完整 provenance。

一条典型 Class A 断言的 provenance trail
示例 · Monash ECC1000 · "弹性 ≈ 12% 期末分值"
Step 1
Source · 3 套历年期末(2023 / 2024 / 2025)· 由 7 名不同学生分享。
Step 2
切分 · 跨 3 套 paper 识别出 87 道独立问题。
Step 3
打标 · 每道问题对照 ECC1000 topic taxonomy(28 个 topic)打标。
Step 4
加权 · 跨 3 套 paper 中所有归属到 "Elasticity" 的分数总和 · 归一化。
Step 5
发布 · "12% 期末分值(N=3 papers)" · 带最近更新时间戳。

建议引用格式:AskSia, "ECC1000 Microeconomics — Topic Frequency Analysis," 2026-05-15, asksia.ai/zh-CN/au/monash/ecc1000/

§8 · 边界

我们明确不做的事

一份明确的不做清单 —— 发布出来让学生、大学、监管都能据此监督我们。

我们做
  • 在 ingest 阶段 strip PII · 早于任何存储。
  • 只发布带 N marker 的聚合统计模式。
  • 逐字引用官方源 · 带日期 URL。
  • 学生申请删除 · 立即生效。
  • 每条 outcome(Class E)断言上线前过合规审查。
我们不做
  • 重新发布或出售学生上传的原始材料。
  • 复制考试题、lecture slides、或受版权保护的内容。
  • 把单个学生的数据提供给大学或第三方。
  • 数据不足时插值或估算 —— 我们直接说"数据不足"。
  • 把 outcome 相关性 frame 成因果 claim。
§9 · 纠错

发现错的地方

如果你在 AskSia 看到一个数字觉得不对 · 或者你教过站上覆盖的某门课 · 想 flag 方法论层面的疑问 · 写信到 methodology@asksia.ai。我们 review 每一条 flag · 必要时在 14 天内发布更正。大学也可以通过同一个邮箱申请方法论 audit。

学生想移除自己的贡献 · 最快路径是 in-app:设置 → 数据 → 导出并删除。依赖你贡献的导出 pattern 会在 30 天内重新计算。

现在去打开懂你这门课的 AI tutor。

你已经读完我们怎么知道。每个课程页背后的 pattern · 都是为了让 Sia 帮你的速度更快。从你自己的课开始。

打开 AskSia →