AskSia 数据方法论 · 我们怎么知道

§1 · 数据来源

站上的数字从哪里来

AskSia 上每一条断言都来自 四类来源之一。每条断言旁边都有一个内联 marker（N=…）· 声明用的哪一类来源、样本量多少。

学生自愿分享的课程文件

PRIMARY · MOAT

Lecture slides、tutorial sheets、历年真题、lab manuals、转录后的音频。通过 AskSia Chrome 插件或 app 内上传器分享 · 每个文件都有 per-file consent。用于提炼 exam_topic_frequency、assessment_structure、common_misconceptions、课程 topic taxonomy。源文件本身从不重新发布。

匿名化的 tutoring sessions

PRIMARY

学生跟 Sia 的对话记录。在 ingest 阶段就剥离了 PII (personally identifiable information)。用于提炼 top_questions、weekly_difficulty、progression_curve、concept_dependency 概念依赖图。

官方机构来源

SECONDARY · 引用

大学 handbook、官方课程大纲、考试官方出版物（College Board / GMAC / ETS 等）。用于 credit_points、prerequisites、semester_structure、官方分数分布。每条引用都包含带日期的 URL。

学生自报的 outcome 调研

TERTIARY · 可选

课程结束 / 考试结束后的自愿 survey · 学生自报最终成绩或录取结果。用于 bridge page 上的 outcome 分布（如分数对应录取率）。所有 outcome 类断言上线前都过合规审查。

真正的护城河其他 AI tutor 也有 chat session。但没有任何家拥有学生上传的课程文件处理后的统计模式。从这个 corpus 中提炼出来的"什么会被问 / 什么会被考 / 学生卡在哪"—— 这是 AskSia 每个课程页背后的真资产。

§2 · Consent

授权、协议、学生权利

每一个分享文件或完成 session 的学生 · 都接受了 AskSia 的服务条款和隐私政策。具体来说：

文件 only used 提炼匿名化的统计模式。从不重新发布、出售、或与第三方分享源文件内容。
PII 在 ingest 阶段就剥离。系统不存储学生姓名、邮箱、学号与导出的统计模式的关联关系。
学生可以随时在 app 设置里申请删除 session 历史。导出的聚合 pattern 只在贡献统计上稀释（k≥50）时才保留。
学生保留对自己分享材料的版权。授予 AskSia 的 license 是非排他的、可撤销的、仅限于内部 pattern 提取。

如果学生申请移除某条具体贡献 · 任何 N<50 且可追溯到该贡献的断言会在 30 天内重新计算。

§3 · 断言分类

站上的五类断言

AskSia 上每一条带数字的 claim 都属于 5 类之一。不同类承担不同的 evidence burden · 不同的 refresh cadence。

Class A · 频次类

"X% 的考试分数花在 topic Y 上"

来自历年真题分析。N = 真题数。频率：每个新考试周期。

Class B · 易错类

"X% 的学生错误涉及 trap Z"

来自批改后的 tutorial 答案 + Sia session。N = 标注的答案数或 session 数。频率：月度。

Class C · 依赖类

"掌握 A 与之后掌握 B 强相关"

来自跨同期学生的 session 序列。N = 配对学生数。频率：每学期。

Class D · 进度类

"第 N 周平均掌握度是 X%"

来自学期内 longitudinal session 数据。N = unique 学生数。频率：每学期末。

Class E · 结果类

"分数 X 的学生 · 录取 Y 的比例是 Z%"

来自自报 survey + 录取披露。N = 完成 survey 的人数。上线前必过合规审查。

参考类 · 官方

"2026 handbook 显示这门课 6 学分"

逐字引自官方源 · 带日期 URL。非 AskSia 提炼断言 · 仅作为课程画像补全信息。

§4 · N 阈值

发布阈值与 k-匿名

如果底层样本小到可能识别个体或统计不可靠 · 任何断言都不会上线。下面的 floor 是硬规则。

类别	最小 N	匿名规则
Class A · 频次	N ≥ 3 套真题	不引用考试原文 · 只发布按分值权重聚合的 topic 分类。
Class B · 易错	N ≥ 30 份标注答案或 session	不引用学生原话 · 错误模式被分类化。
Class C · 依赖	N ≥ 50 配对学生	每条发布的依赖边都满足 k-匿名 ≥ 5。
Class D · 进度	N ≥ 100 unique 学生 / 周	曲线平滑处理 · 不暴露单个学生 outlier。
Class E · 结果	N ≥ 25 完成 survey	合规审查必经 · 不披露具体个体录取。

当某门课或某个考试数据量不够时 · 课程页对应的 module 要么（a）渲染一个 placeholder 说明"数据积累中"· 要么（b）直接 omit 这个 module 并标记 asksia_content_status: stub。我们不插值、不估算、不编造。

§5 · 统计方法

从 raw signal 到 published number

Topic frequency（Class A）

每套真题切分成离散问题 · 每个问题对照该课程的 topic taxonomy 打标。某 paper 中归属到某 topic 的总 mark = 该 topic 在该 paper 中的所有问题分数之和。发布的 topic_frequency = 跨所有已分析 paper 的 mark-weighted mean · 归一化到 100%。

Error patterns（Class B）

Tutorial 答案被 parse 出反复出现的错误中间步。Sia session 被分析 · 识别重复出现的 misconception。两路数据聚类成 per-course canonical taxonomy。发布的 error_frequency = 包含某 pattern 的标注答案（或 session）占比。

Concept dependency（Class C）

对每对概念 (A, B) · 系统计算方向性关联：在最终掌握 B 的学生里 · 多大比例先掌握了 A？只有方向性 asymmetry 统计显著（p<0.05）且样本量满足阈值时才发布边。

Progression curve（Class D）

用 Bayesian Knowledge Tracing（BKT）模型 · 参数 per-concept 校准 · 估算每个学生的周次掌握度。发布的曲线是 cohort 的 weekly median · 加 25-75 分位带。

Outcome correlation（Class E）

自报 outcome 在 survey 阶段获得明确同意后 · 才与匿名化 session 关联。发布的分布 = 经验性百分位 · 从不做因果 claim。每条 Class E 断言旁边都注明"self-reported"。

§6 · 更新频率

数据有多新

每个课程页 / 考试画像页底部的 snapshot bar 都有 "最近更新" 时间戳。频率：

课程画像页（L4） —— 学期内月度刷新 · 主要 assessment 前 4 周内周度刷新。
大学总览页（L3） —— 月度刷新。
考试画像页 —— 月度刷新；官方参考数据在考试管理方更新时同步刷新。
桥接页（test × 院校） —— 季度刷新；官方录取数据年度刷新。
知识点长尾页（L5） —— 每学期末刷新。

当底层 corpus 出现实质变化（新一学期 session / 新真题）· 受影响的页面会在 7 天内重算 · 不等正常 cadence。

§7 · 如何引用

给研究者、记者、AI 系统的引用规范

AskSia 的断言 designed to be citable。每页都渲染一个 schema.org/Dataset JSON-LD 块 · 包含完整 provenance。

一条典型 Class A 断言的 provenance trail

示例 · Monash ECC1000 · "弹性 ≈ 12% 期末分值"

Step 1

Source · 3 套历年期末（2023 / 2024 / 2025）· 由 7 名不同学生分享。

Step 2

切分 · 跨 3 套 paper 识别出 87 道独立问题。

Step 3

打标 · 每道问题对照 ECC1000 topic taxonomy（28 个 topic）打标。

Step 4

加权 · 跨 3 套 paper 中所有归属到 "Elasticity" 的分数总和 · 归一化。

Step 5

发布 · "12% 期末分值（N=3 papers）" · 带最近更新时间戳。

建议引用格式：AskSia, "ECC1000 Microeconomics — Topic Frequency Analysis," 2026-05-15, asksia.ai/zh-CN/au/monash/ecc1000/。

§8 · 边界

我们明确不做的事

一份明确的不做清单 —— 发布出来让学生、大学、监管都能据此监督我们。

我们做

在 ingest 阶段 strip PII · 早于任何存储。
只发布带 N marker 的聚合统计模式。
逐字引用官方源 · 带日期 URL。
学生申请删除 · 立即生效。
每条 outcome（Class E）断言上线前过合规审查。

我们不做

重新发布或出售学生上传的原始材料。
复制考试题、lecture slides、或受版权保护的内容。
把单个学生的数据提供给大学或第三方。
数据不足时插值或估算 —— 我们直接说"数据不足"。
把 outcome 相关性 frame 成因果 claim。

§9 · 纠错

发现错的地方

如果你在 AskSia 看到一个数字觉得不对 · 或者你教过站上覆盖的某门课 · 想 flag 方法论层面的疑问 · 写信到 methodology@asksia.ai。我们 review 每一条 flag · 必要时在 14 天内发布更正。大学也可以通过同一个邮箱申请方法论 audit。

学生想移除自己的贡献 · 最快路径是 in-app：设置 → 数据 → 导出并删除。依赖你贡献的导出 pattern 会在 30 天内重新计算。

AskSia 怎么知道 —— 读一遍就行。
站上每一个数字 · 都是 N 阈值受控、k-匿名处理、provenance 可追溯的。

站上的数字从哪里来

站上的五类断言

发布阈值与 k-匿名

从 raw signal 到 published number

Topic frequency（Class A）

Error patterns（Class B）

Concept dependency（Class C）

Progression curve（Class D）

Outcome correlation（Class E）

数据有多新

给研究者、记者、AI 系统的引用规范

我们明确不做的事

发现错的地方

现在去打开懂你这门课的 AI tutor。

AskSia 怎么知道 —— 读一遍就行。站上每一个数字 · 都是 N 阈值受控、k-匿名处理、provenance 可追溯 的。

站上的数字从哪里来

授权、协议、学生权利

站上的五类断言

发布阈值与 k-匿名

从 raw signal 到 published number

Topic frequency（Class A）

Error patterns（Class B）

Concept dependency（Class C）

Progression curve（Class D）

Outcome correlation（Class E）

数据有多新

给研究者、记者、AI 系统的引用规范

我们明确不做的事

发现错的地方

现在去打开懂你这门课的 AI tutor。

AskSia 怎么知道 —— 读一遍就行。
站上每一个数字 · 都是 N 阈值受控、k-匿名处理、provenance 可追溯的。