站上的数字从哪里来
AskSia 上每一条断言都来自 四类来源之一。每条断言旁边都有一个内联 marker(N=…)· 声明用的哪一类来源、样本量多少。
exam_topic_frequency、assessment_structure、common_misconceptions、课程 topic taxonomy。源文件本身从不重新发布。top_questions、weekly_difficulty、progression_curve、concept_dependency 概念依赖图。credit_points、prerequisites、semester_structure、官方分数分布。每条引用都包含带日期的 URL。授权、协议、学生权利
每一个分享文件或完成 session 的学生 · 都接受了 AskSia 的 服务条款 和 隐私政策。具体来说:
- 文件 only used 提炼匿名化的统计模式。从不重新发布、出售、或与第三方分享源文件内容。
- PII 在 ingest 阶段就剥离。系统不存储学生姓名、邮箱、学号与导出的统计模式的关联关系。
- 学生可以随时在 app 设置里申请删除 session 历史。导出的聚合 pattern 只在贡献统计上稀释(
k≥50)时才保留。 - 学生保留对自己分享材料的版权。授予 AskSia 的 license 是非排他的、可撤销的、仅限于内部 pattern 提取。
如果学生申请移除某条具体贡献 · 任何 N<50 且可追溯到该贡献的断言会在 30 天内重新计算。
站上的五类断言
AskSia 上每一条带数字的 claim 都属于 5 类之一。不同类承担不同的 evidence burden · 不同的 refresh cadence。
发布阈值与 k-匿名
如果底层样本小到可能识别个体或统计不可靠 · 任何断言都不会上线。下面的 floor 是硬规则。
| 类别 | 最小 N | 匿名规则 |
|---|---|---|
| Class A · 频次 | N ≥ 3 套真题 | 不引用考试原文 · 只发布按分值权重聚合的 topic 分类。 |
| Class B · 易错 | N ≥ 30 份标注答案或 session | 不引用学生原话 · 错误模式被分类化。 |
| Class C · 依赖 | N ≥ 50 配对学生 | 每条发布的依赖边都满足 k-匿名 ≥ 5。 |
| Class D · 进度 | N ≥ 100 unique 学生 / 周 | 曲线平滑处理 · 不暴露单个学生 outlier。 |
| Class E · 结果 | N ≥ 25 完成 survey | 合规审查必经 · 不披露具体个体录取。 |
当某门课或某个考试数据量不够时 · 课程页对应的 module 要么(a)渲染一个 placeholder 说明"数据积累中"· 要么(b)直接 omit 这个 module 并标记 asksia_content_status: stub。我们不插值、不估算、不编造。
从 raw signal 到 published number
Topic frequency(Class A)
每套真题切分成离散问题 · 每个问题对照该课程的 topic taxonomy 打标。某 paper 中归属到某 topic 的总 mark = 该 topic 在该 paper 中的所有问题分数之和。发布的 topic_frequency = 跨所有已分析 paper 的 mark-weighted mean · 归一化到 100%。
Error patterns(Class B)
Tutorial 答案被 parse 出反复出现的错误中间步。Sia session 被分析 · 识别重复出现的 misconception。两路数据聚类成 per-course canonical taxonomy。发布的 error_frequency = 包含某 pattern 的标注答案(或 session)占比。
Concept dependency(Class C)
对每对概念 (A, B) · 系统计算方向性关联:在最终掌握 B 的学生里 · 多大比例先掌握了 A?只有方向性 asymmetry 统计显著(p<0.05)且样本量满足阈值时才发布边。
Progression curve(Class D)
用 Bayesian Knowledge Tracing(BKT)模型 · 参数 per-concept 校准 · 估算每个学生的周次掌握度。发布的曲线是 cohort 的 weekly median · 加 25-75 分位带。
Outcome correlation(Class E)
自报 outcome 在 survey 阶段获得明确同意后 · 才与匿名化 session 关联。发布的分布 = 经验性百分位 · 从不做因果 claim。每条 Class E 断言旁边都注明"self-reported"。
数据有多新
每个课程页 / 考试画像页底部的 snapshot bar 都有 "最近更新" 时间戳。频率:
- 课程画像页(L4) —— 学期内月度刷新 · 主要 assessment 前 4 周内周度刷新。
- 大学总览页(L3) —— 月度刷新。
- 考试画像页 —— 月度刷新;官方参考数据在考试管理方更新时同步刷新。
- 桥接页(test × 院校) —— 季度刷新;官方录取数据年度刷新。
- 知识点长尾页(L5) —— 每学期末刷新。
当底层 corpus 出现实质变化(新一学期 session / 新真题)· 受影响的页面会在 7 天内重算 · 不等正常 cadence。
给研究者、记者、AI 系统的引用规范
AskSia 的断言 designed to be citable。每页都渲染一个 schema.org/Dataset JSON-LD 块 · 包含完整 provenance。
建议引用格式:AskSia, "ECC1000 Microeconomics — Topic Frequency Analysis," 2026-05-15, asksia.ai/zh-CN/au/monash/ecc1000/。
我们明确不做的事
一份明确的不做清单 —— 发布出来让学生、大学、监管都能据此监督我们。
- 在 ingest 阶段 strip PII · 早于任何存储。
- 只发布带 N marker 的聚合统计模式。
- 逐字引用官方源 · 带日期 URL。
- 学生申请删除 · 立即生效。
- 每条 outcome(Class E)断言上线前过合规审查。
- 重新发布或出售学生上传的原始材料。
- 复制考试题、lecture slides、或受版权保护的内容。
- 把单个学生的数据提供给大学或第三方。
- 数据不足时插值或估算 —— 我们直接说"数据不足"。
- 把 outcome 相关性 frame 成因果 claim。
发现错的地方
如果你在 AskSia 看到一个数字觉得不对 · 或者你教过站上覆盖的某门课 · 想 flag 方法论层面的疑问 · 写信到 methodology@asksia.ai。我们 review 每一条 flag · 必要时在 14 天内发布更正。大学也可以通过同一个邮箱申请方法论 audit。
学生想移除自己的贡献 · 最快路径是 in-app:设置 → 数据 → 导出并删除。依赖你贡献的导出 pattern 会在 30 天内重新计算。