2025.10.30

Overview

  1. 学习笔记
  2. 今日总结
  3. 摘录

学习笔记

概率

  1. 数据与数据表示
    1. 图表类型:
      1. 柱状图(Bar graph)
      2. 饼图(Pie Chart)
      3. 交叉表(Cross Table):可以变成并排的簇状图(几个柱作为一个整体)或堆叠的分组条形图(一个柱上有几个不同的特性)
      4. 直方图(Histogram)
      5. 累积频率图(Ogive):连接各区间上限累积百分比的线,展示累积频率分布
      6. 茎叶图(Stem and Leaf Plot):同时展示数据的分布和原始值(中间的主干数据加上两边的枝干数据)
      7. 时间序列图(Time Series Plot):横轴为时间,纵轴为序列值,展示数据随时间的变化趋势
      8. 散点图(Scatterplot):观测两个定量变量的关系,需关注关联方向(正 / 负)、形式(线性 / 非线性)、强度(紧密 / 松散)
    2. 频率表
      1. 分类数据频率表:列出类别及对应数量(频率),相对频率表则列出百分比(比例)
        1. 频率表:
          舱位 数量
          头等舱(First) 324
          二等舱(Second) 285
          三等舱(Third) 710
          船员(Crew) 889
        2. 相对频率表
          舱位 百分比(%)
          头等舱(First) 14.67
          二等舱(Second) 12.91
          三等舱(Third) 32.16
          船员(Crew) 40.26
      2. 数值数据频率表:
        1. 构建规则:根据样本量n选择,如下表:
          样本量(n) 组数(k)
          <50 5-7
          50-100 7-8
          101-500 8-10
          501-1000 10-11
          1001-5000 11-14
          >5000 14-20
        2. 选择组宽:class width = (最大观测值 - 最小观测值) / 组数k (注意:需向上取整(根据数据小数位数))
        3. 组的要求:包含所有数据且不重叠,每个观测属于唯一一组
  2. 四种测量尺度
    尺度类型 核心特征 示例
    名义尺度(Nominal) 仅用于命名 / 标签,非定量值,无顺序和大小关系 欧洲国家、运动员 T 恤号码、性别、发色
    顺序尺度(Ordinal) 有顺序,非定量值,无法精确衡量差值 幸福感等级、服务满意度
    区间尺度(Interval) 定量,有顺序,可衡量差值,无 “真零”(零无实际意义),无法计算比率 摄氏温度(60℃与 50℃差值 = 80℃与 70℃差值 = 10℃,但 0℃不代表无温度)
    比率尺度(Ratio) 定量,有顺序,可衡量差值,有 “真零”(零代表无),可计算比率 体重(20kg 是 10kg 的 2 倍)、身高
  3. 分布描述
    1. 集中趋势测量(反映数据典型值)
      1. 均值(Mean,x̄):算术平均,公式为 x̄ = (∑(i=1 到 n) xi) / (n - 1)
      2. 中位数(Median,m):有序数据的中点,即第 50 百分位数
      3. 众数(Mode):数据中出现频率最高的数值,可能有多个(如双峰、多峰分布)
    2. 离散程度测量(反映数据变异性)
      1. 范围(Range):最大值与最小值的差值,公式为 Range = 最大观测值 - 最小观测值
      2. 四分位距(Interquartile Range,IQR):上四分位数(Q3)与下四分位数(Q1)的差值,公式为 IQR = Q3 - Q1
        1. 计算Q1和Q3的规则:
          1. 若n为奇数:Q1是(n+1/2)-1个数据的中位数,Q3是(n+1/2)-1个数据的中位数
          2. 若n为偶数:Q1是n/2个数据的中位数,Q1是n/2个数据的中位数
      3. 方差(Variance,s^2)与标准差(Standard Deviation,s):
        1. 方差:衡量数据与均值的偏离程度,样本方差公式为 s^2 = ∑(i=1 到 n) (xi - x̄)^2 / n-1 (分母用n-1是因为∑(xi - x̄) = 0,即仅n−1个偏差可自由变化
        2. 标准差:方差的平方根,单位与原始数据一致,值越大说明数据越分散,越小则越集中
      4. 形状(反映数据分布形态):
        1. 偏度(Skewness):衡量分布的不对称性
          1. 负偏(Negatively skewed):均值 < 中位数 < 众数,分布左侧长尾
          2. 正态(Normal,无偏):均值 = 中位数 = 众数,分布对称
          3. 正偏(Positively skewed):众数 < 中位数 < 均值,分布右侧长尾
        2. 众数数量:
          1. 单峰(Unimodal):只有一个众数
          2. 双峰(Bimodal):有两个众数
          3. 多峰(Multimodal):有三个及以上众数
        3. 异常值(Outliers):
          1. 定义:远离数据主体的观测值,可能由实验误差导致,有时需从数据集中剔除
          2. 判断标准:若观测值落在Q1 - 1.5IQR以下Q3 + 1.5IQR以上,则可能为异常值
  4. 箱线图(Box-and-whisker plot)
    1. 定义:一种图形化展示数据分布的工具,呈现中位数、Q1、Q3及潜在异常值
    2. 组成部分:
      1. 箱体:从Q1延伸至Q3,箱内横线代表中位数
      2. 须(Whiskers):从箱体两端延伸至 Q1 - 1.5IQR 和 Q3 + 1.5IQR 范围内的最小和最大数据点
      3. 异常值:超出须范围的数据点,单独标记
    3. 用途:作为诊断工具,直观观察数据分布的集中趋势、离散程度和异常值,非用于正式的异常值检验
      箱线图
  5. 随机变量及其性质
    1. 随机变量定义:设随机实验的样本空间为S,若对每个样本点 s∈S,都有唯一的实数X(s)与之对应,则称X=X(s)为随机变量
      1. 示例:抛 10 次硬币实验,样本空间S = {s|s是十次正反面的序列},定义随机变量X(s)为序列中正面出现的次数,则X(s)的取值范围为Rx = {1,2,···,10}
    2. 随机变量类型
      1. 离散随机变量(Discrete Random Variable):取值为有限个或可列无限个
      2. 连续随机变量(Continuous Random Variable):取值充满某个区间
    3. 随机变量的特征
      1. 均值(期望,Mean/Expectation,μ):
        1. 离散随机变量:μ = E[X] = ∑x xp(x),其中p(x) = P(X = x)为概率质量函数
        2. 连续随机变量:μ = E[X] = ∫(负无穷 到 正无穷) xf(x)dx,其中f(x)为概率密度函数,且∫(负无穷 到 正无穷) f(x)dx = 1
      2. 中位数(Median,m):
        1. 离散随机变量:满足 P(X ≤ m) ≥ 1/2 且 P(X ≥ m) ≥ 1/2 的数值
        2. 连续随机变量:概率密度函数下面积被x=m分为两部分,每部分面积为1/2,即 ∫(负无穷 到 m) f(x)dx = 1/2
      3. 众数(Mode):概率密度函数(或概率质量函数)的局部最大值点,可能有多个
      4. 方差(Variance,σ^2):衡量随机变量取值与均值的偏离程度,公式为σ^2 = E[(X−μ)^2],其中:
        1. 离散随机变量:σ^2 = ∑x (x-μ)^2p(x)
        2. 连续随机变量:σ^2 = ∫(负无穷 到 正无穷) (x-μ)^f(x)dx
      5. 累积分布函数(Cumulative Distribution Function,CDF,F(x)):F(x) = P(X≤x),其中:
        1. 离散随机变量:F(x) = ∑(t≤x) p(t)
        2. 离散随机变量:F(x) = ∫(负无穷 到 x) f(t)dt
  6. 抽样分布
    1. 随机样本:设X1,X2,···, Xn是相互独立的随机变量,且每个Xi都与总体X具有相同的概率密度函数f(x),则称X1,X2,···, Xn为来自总体X的容量为n的随机样本。随机样本的联合概率密度函数为 f(x1,x2,···,xn) = f(x1)f(x2)···f(xn)
    2. 统计量:
      1. 定义:设X1,X2,···, Xn是来自总体的随机样本,若样本的函数T = T(X1,X2,···, Xn)不含任何未知参数,则称T为统计量
      2. 常见统计量:
        1. 样本均值:ˉX= 1/n ∑(i=1 到 n) Xi(对应观测样本的 x̄ = 1/n ∑(i=1 到 n) xi是具体数值,而ˉX是随机变量)
        2. 样本方差:S^2 = 1/(n-1) ∑(i=1 到 n) (Xi - ˉX)^2(对应观测样本的 s^2 = 1/(n-1) ∑(i=1 到 n) (xi - x̄)^2是具体数值,而S^2是随机变量)
      3. 抽样分布定义:统计量的概率分布称为抽样分布,它描述了统计量的取值规律,是进行统计推断(如估计总体参数、检验假设)的重要依据,通过抽样分布可将样本信息与总体参数关联起来
  7. 样本均值的抽样分布
    1. 核心结论:
      1. 期望:样本均值的期望等于总体均值,即 E[X] = μ
      2. 方差:样本均值的方差等于总体方差除以样本量,即 Var(ˉX) = σ^2/n(若总体方差为σ^2)
    2. 两种情况的抽样分布形态:
      总体分布情况 样本均值ˉX的抽样分布 适用条件
      总体服从正态分布 (X ∼ N(μ,σ^2)) X ∼ N(μ,σ^2/n) 无论样本量n大小,均成立
      总体分布未知(但总体均值μ、方差σ^2有限) 当n足够大时,近似 X ∼ N(μ,σ^2/n) 中心极限定理(CLT),通常 n≥30 时近似效果好;若n<30,需总体分布接近正态
    3. 示例:
      1. 已知:某大学学生平均年龄μ=22.3岁,标准差σ=4岁(方差σ^2=16),随机抽取n=64名学生
      2. 求:样本平均年龄大于23岁的概率 P(ˉX > 23)
      3. 解:因 n=64 ≥ 30,由CLT,X ∼ N(μ = 22.3,σ^2/n = 16/64) = N(22.3,0.25)标准化得 Z = (ˉX - μ) / √σ ∼ N(0,1),则 P(ˉX > 23) = P(Z > (23-22.3)/√0.25) = P(Z > 1.40)。查标准正态分布表,P(Z ≤ 1.40) = 0.9192,所以P(Z > 1.40) = 1 - 0.9192 = 0.0808
  8. 中心极限定理(CLT)的用途
    1. 获取样本均值的抽样分布:基于总体参数 (μ,σ^2)和样本量n,确定ˉX的分布形态(近似正态分布),为后续统计计算奠定基础
    2. 推断未知总体均值μ:
      1. 假设检验:判断样本均值x̄是否支持对μ的某个假设(如“μ = μ0”)
      2. 估计:通过样本均值及抽样分布,给出μ的估计区间(如置信区间)
      3. 质量控制:监测生产过程中产品指标的均值是否在合理范围内,判断过程是否稳定
  9. 两均值差的抽样分布(ˉX1 - ˉX2)
    1. 定理:设从两个总体中分别抽取独立样本:
      样本1:容量n1,来自均值μ1,方差σ^2(1)的总体
      样本2:容量n2,来自均值μ2,方差σ^2(2)的总体
      则当n1和n2足够大时(通常≥30),或两个总体均服从正态分布时,两样本均值差 ˉX1 - ˉX2 近似服从正态分布:ˉX1 - ˉX2 ∼ N(μ1-μ2,σ^2(1)/n1 + σ^2(2)/n2) (注意加减号)
  10. X^2分布
    1. 定义:设X1,X2,···,Xn是来自正态总体N(μ,σ^2)的随机样本,S^2为样本方差,则统计量 X^2 = (n-1)S^2 / σ^2,服从自由度为 v = n-1 的X^2分布,记为 X^2 ∼ X^2(v)
    2. 形态:
      1. 取值范围:X^2 ≥ 0(非负)
      2. 自由度影响:自由度v越小,分布越偏右;v越大,分布越接近正态分布
      3. 分位数:用 X^2(a)(v) 表示自由度为v的X^2分布中,右侧面积为a的分位数(如v=7时,X^2(0.05)(7) = 14.067,X^2(0.95)(7) = 2.167)
      4. 区间概率:如 95% 的X^2值落在X^2(0.975)(v)与X^2(0.025)(v)之间,若X^2值超出此范围,可能表明假设的总体方差σ^2不合理
    3. 用途:主要用于统计推断,核心是检验 “观测数据与预期数据的差异是否由随机因素导致”,具体应用包括:
      1. 总体方差的区间估计和假设检验(如判断总体方差是否等于某个假设值)
      2. 拟合优度检验(检验观测数据是否符合某一理论分布,如正态分布、二项分布)
      3. 独立性检验(检验两个分类变量是否独立)
  11. t分布(Student t -Distribution)
    1. 定义:
      1. 基础定义:设 Z ∼ N(0,1)(标准正态分布),V ∼ X^2(v)(自由度v的X^2分布),且Z与V独立,则随机变量 T = Z / √(V/v) 服从自由度为v的t分布,记作 T ∼ t(v)
      2. 推论(样本均值相关):设 X1,X2,···,Xn 是来自正态总体N(μ,σ^2)的随机样本,ˉX为样本均值,S^2为样本方差,则统计量 T = (ˉX - μ) / (S/√n),服从自由度为 v = n-1 的t分布
    2. 形态:
      1. 对称性:钟形,关于t=0对称(与标准正态分布类似)
      2. 方差特性:方差 = v / v-2 (v>2),大于1,故比标准正态分布更分散(尾部更粗)
      3. 自由度影响:自由度v越大,t分布越接近标准正态分布(v趋近于无穷时,t分布趋近于N(0,1))
      4. 分位数:用ta(v)表示自由度为v的t分布中,右侧面积为a的分位数,由对称性得t1-a(v) = -ta(v)
    3. 用途:
      1. 核心场景:总体方差σ^2未知时的统计推断,具体包括:
        1. 总体均值μ的区间估计和假设检验(如样本量较小时,用S替代σ,用 t 分布而非正态分布)
        2. 两独立样本均值差的检验(当两总体方差未知且可能相等或不等时,用t分布或近似t分布)
        3. 配对样本均值差的检验(如同一组对象前后两次测量的均值差检验)
      2. 注意事项:
        1. 使用 t 分布的前提是总体服从正态分布(或样本量较大时,由CLT近似正态,但t分布的使用与CLT无直接关联)
        2. 若总体不服从正态且样本量小(n<30),则t分布的近似效果差,不宜使用
  12. F分布
    1. 定义
      1. 基础定义:设 U ∼ X^2(v1)(自由度v1的X^2分布),V ∼ X^2(v2)(自由度v2的X^2分布),且U与V独立,则随机变量 F = (U/v1)/(V/v2) 服从自由度为(v1,v2)的F分布,记为 F ∼ F(v1,v2),其中v1为分子自由度,v2为分母自由度
      2. 推论(样本方差相关):设 S^2(1) 是来自正态总体 N(μ1,σ^2(1)) 的样本(容量n1)的方差,S^2(2) 是来自正态总体 N(μ2,σ^2(2)) 的样本(容量n2)的方差,且两样本独立,则统计量 F = (S^2(1)/σ^2(1)) / (S^2(2)/σ^2(2)) = σ^2(2)S^2(1) / σ^2(1)S^2(2) 服从自由度为(v1 = n1 - 1,v2 = n2 - 1)的F分布,
    2. 形态
      1. 取值范围:F≥0(非负)
      2. 自由度影响:分布形态由分子自由度v1和分母自由度v2共同决定,通常为右偏分布,v1和v2越大,分布越接近正态分布
      3. 分位数:用fa(v1,v2)表示自由度为(v1,v2)的F分布中,右侧面积为a的分位数
      4. 分位数关系:fa(v1,v2) = 1 / (f1-a(v2,v1)),用于计算低尾分位数
    3. 用途:
      1. 核心场景:方差分析(Analysis of Variance,ANOVA),用于检验多个总体均值是否相等,具体包括:
        1. 单因素方差分析(如检验三种油漆的平均干燥时间是否相等):通过比较 “组间方差”(样本均值间的变异)与 “组内方差”(样本内部的变异)的比值(F统计量),判断均值是否存在显著差异
        2. 两总体方差的比较:检验两个正态总体的方差是否相等(如判断两样本的方差是否齐性,为两样本均值检验选择方法)
        3. 多因素方差分析:分析多个因素对因变量的影响及因素间的交互作用
  13. 本章关键问题:
    1. 在数据分布描述中,异常值的判断标准是什么?为什么在计算样本方差时,分母使用n−1而非n?
      1. 异常值判断标准:若某个观测值落在 Q1−1.5IQR以下或Q3+1.5IQR以上,则该观测值可能为异常值
      2. 样本方差分母用n−1的原因:为了实现无偏估计,由于样本均值x̄是通过样本数据计算得出的,存在 “自由度损失” —— ∑(i=1 到 n) (xi - x̄) = 0,即n个偏差中只有n−1个是独立的若用
    2. 心极限定理(CLT)的核心内容是什么?其在样本均值抽样分布和两均值差抽样分布中有哪些具体应用?
      1. 中心极限定理(CLT)核心内容:设总体的均值为μ、方差为σ^2(有限),从该总体中抽取容量为n的随机样本,当n足够大时(通常n≥30),样本均值ˉX的抽样分布近似服从均值为μ,方差为σ^2/n的正态分布(即近似 ˉX ∼ N(μ,σ^2/n))且该近似效果与总体原始分布无关(即使总体非正态,只要n足够大,样本均值仍近似正态)
      2. 在样本均值抽样分布中的应用:
        1. 当总体分布未知时,若n≥30,可通过CLT认为ˉX近似正态,进而计算与样本均值相关的概率
        2. 当n<30时,若总体分布接近正态CLT的近似效果仍可接受;若总体严重非正态,则需增大样本量以满足CLT条件
      3. CLT 可推广到两独立样本场景
    3. X^2分布、T分布、F分布的核心用途有何差异?分别适用于哪些统计推断场景?
      1. X^2分布、T分布、F分布的核心用途及适用场景存在显著差异,具体如下表所示:
        分布类型 核心用途 适用场景示例
        X^2分布 围绕方差与数据拟合程度展开,用于检验 “观测数据与预期数据的差异是否由随机因素导致” 1. 总体方差推断:总体方差σ^2的区间估计和假设检验(如判断汽车电池寿命的标准差是否为 1 年)
        2. 拟合优度检验:检验观测数据是否符合某一理论分布(如检验学生成绩是否服从正态分布)
        3. 独立性检验:检验两个分类变量是否独立(如检验 “性别” 与 “是否购买某产品” 是否独立)
        T分布 围绕总体方差未知时的均值推断展开,解决 “总体方差σ^2未知,无法使用正态分布” 的问题 1. 单总体均值推断:总体方差未知时,总体均值μ的区间估计和假设检验(如样本量较小时,检验化工过程的产量均值是否为 500g/ml)
        2. 两样本均值差推断:两总体方差未知时,检验两总体均值是否相等(如检验两种药物的疗效均值是否有差异)
        3. 配对样本推断:检验配对数据的均值差(如检验同一组患者用药前后的血压均值差)
        F分布 围绕方差比值与多总体均值比较展开,核心是 “通过方差比值判断差异是否显著” 1. 两总体方差比较:检验两个正态总体的方差是否相等(如判断两批产品的质量波动是否一致,即方差齐性检验)
        2. 方差分析(ANOVA):检验多个总体的均值是否相等(如检验三种不同品牌油漆的平均干燥时间是否有差异)
        3. 多因素方差分析:分析多个因素对因变量的影响及因素间的交互作用(如分析 “温度”“压力” 对产品产量的影响)
      2. 三者的核心差异在于:X^2分布聚焦 “方差与拟合度”,T分布聚焦 “方差未知时的均值”,F分布聚焦 “方差比值与多均值比较”,分别对应统计推断中不同维度的问题

今日总结

  1. 今天在记笔记时要加入表格,发现:
    1. 为了避免序号被打乱,要通过缩进确保表格属于上一级列表项
    2. 若需要在表格中加入序列需要使用<br>标签进行换行
  2. 今天在记笔记时要插入图片,步骤如下:
    1. 在source文件夹里创建一个images文件夹用于存放图片
    2. 在Markdown文件中用语法:!\[图片描述]\[/images/图片名]
    3. 注意:此方法只能在发布出来的博客中看见图片
    4. 过程中在终端中下载了安装 hexo-asset-img 插件
  3. 今天看见Stela在跑步,和她约了下次一起跑步
  4. 英语口语学习
  5. 今天的网球活动感觉打的越来越好了

摘录

  1. 管理情绪主要包括三个方面的内容:一是认识自己的情绪;二是疏解自己的情绪;三是适当表达自己的情绪。
  2. 脱困四问:
    1. Emotion:我正处于何种情绪里?这种情绪的程度如何?
    2. Event:我为什么产生这样的情绪?(注意:需要客观真实看待所发生的事情,不能带有主观倾向)
    3. Target:我的初衷是什么?
    4. Action:接下来我该怎么做?我可以做些什么?
  3. 生活的本质在于追求快乐,而让自己的人生变得快乐的途径有两种:不断地发现有限生命中的快乐时光,并增加它;发现那些令自己不快乐的时光,并尽可能减少它。 —— 亚里士多德
  4. 两弊相衡取其轻,两利相权取其重

2025.10.28

Overview

  1. 前段时间的总结
  2. 学习笔记
  3. 今日收获

前段时间的总结

从上次博客之后以及一周多了,这期间每天都被牙疼所困扰,从而导致作息被打乱了,且状态明显有所下降。但是不能再继续下去了,从今天开始吃两天药看能不能缓解,实在不行就去医院看看。
在这段时间内虽然生活被有点打乱,但是还是完成了不少有意义的事情的:上周的两次飞盘活动明显参与感更好了,虽然第一次的活动由于失误误伤了一个同学,但幸好问题不是特别严重,周末的第二次活动上更是难得和一名同学在练习时交流的非常开心,希望之后能够继续照这样发展。其次上周末按惯例去参加了志愿者活动,虽然因为我的固执导致被咬了一下,但没什么大碍,就是我发现我买的防水服洗过之后还是有很大的味道,没办法只能再多洗几次看看行不行吧。昨天进行了第一次的城市之旅活动,这次的主题是“食”,由于我的两个行程都被婉拒了所以最后就在学校里的一个饭店吃了个晚饭,顺便把之后几期的活动都交给对应的人来安排,虽然活动的人有点少,但是我感觉还是很不错的,尤其和老师交流的挺开心,完全像是和朋友一样特别轻松自在。

学习笔记

数据科学(统计)

  1. 监督学习(Supervised Learning)基础框架
    1. 核心流程:数据准备→选择算法→拟合模型→评估模型→更新模型→进行预测 (损失(Loss):预测结果与真实结果的差异)
    2. 任务分类:
      1. 回归:预测与特征向量关联的实数,例如用线性回归对数据拟合曲线
      2. 分类:预测与特征向量关联的离散标签
  2. KNN(K 近邻)分类算法
    1. 原理:基于距离矩阵计算样本间相似度,最简单的实现是 “最近邻”—— 预测新样本时,找到训练集中距离最近的样本,直接沿用其标签;扩展为 “K 近邻” 时,取前 K 个最近样本的标签进行投票
    2. 优点:
      1. 学习速度快,无显式训练过程
      2. 无需复杂理论支撑
      3. 方法与结果易解释
    3. 缺点:
      1. 内存密集,预测耗时较长
      2. 暴力搜索并非最优算法
      3. 无模型可解释数据生成过程
  3. 分类模型的评估体系
    1. 仅用 “准确率” 评估存在局限性,需补充以下指标:
      1. 灵敏度(召回率):sensitivity = truepositive / truepositive + falsenegative
      2. 特异性:specificity = truenegative / truenegative + falsepositive
      3. 阳性预测值:positivepredictivevalue = truepositive / truepositive + falsepositive
    2. 测试方法:
      1. 留一法(Leave-one-out):遍历每个样本,以该样本为测试集、其余为训练集,循环计算指标
      2. 重复随机抽样:如 80/20 分割数据(20% 为测试集,80% 为训练集),多次重复抽样以降低随机性影响
      3. K 折交叉验证:首先将数据集均匀划分为 K 个规模相近的子集(即 “K 折”);随后,循环进行 K 次模型训练与测试 —— 每次训练时,用其中 K-1 个子集作为训练数据拟合模型,剩余 1 个子集作为测试数据评估模型性能;最后,综合 K 次测试的结果(如灵敏度、特异性等),取平均值作为模型的最终性能评估,以此在计算量与损失估计准确率之间达到平衡
  4. 逻辑回归算法详解
    1. 核心特点:
      1. 用途:专门预测事件发生的概率,因变量仅取有限值(通常为 0 或 1)
      2. 特征权重:每个特征对应一个权重,正权重表示特征与结果正相关,负权重表示负相关,权重绝对值反映相关性强度
      3. 核心函数:逻辑函数(sigmoid 函数),将线性输出映射到 0-1 区间(概率)

今日收获

今天打算开始认真攻克英语口语,我创建了一个word文档用来记录所学的口语知识(固定搭配、语法、连读习惯···)

2025.10.20

Overview

  1. 周末总结
  2. 今日学习笔记
  3. 今日总结

周末总结

这周末暂时放松了一下,不过还是弹了琴,新曲子虽然有点难以掌握节奏,但以及整体过了一遍了,感觉再练几次就能弹下来了;原本打算带摩羯出去逛逛,结果起床完了,不过还是决定周末下午出去,结果刚骑到公园走了几步就开始下雨了,无奈之下只能提前回家了,没事以后有的是机会

学习笔记

数据科学(统计)

  1. 机器学习核心范式
    1. 机器学习的核心逻辑: “观察训练数据→推断数据生成过程→预测测试数据”
    2. 监督学习:给定特征 / 标签对,学习预测未知输入标签的规则
    3. 无监督学习:仅给定特征向量(无标签),将样本分组为 “自然聚类”,聚类是无监督学习的核心任务之一
  2. 聚类(Clustering)的本质:优化问题,目标是找到聚类划分 C 以最小化聚类内差异(dissimilarity (C)),但需满足约束条件:
    1. 若不设约束,会导致每个样本单独成簇(无意义),因此需添加约束,如 “聚类间最小距离” 或 “指定聚类数量(k)”
    2. 核心逻辑:“大而差” 的聚类比 “小而差” 的聚类更差,需平衡聚类大小与内部一致性
  3. 层次聚类(Hierarchical Clustering)
    1. 核心步骤:
      1. 初始状态:每个样本单独成簇,N 个样本对应 N 个簇
      2. 迭代合并:找到最相似(距离最近)的一对簇,合并为 1 个簇,簇数减少 1
      3. 终止条件:所有样本合并为 1 个簇(大小为 N)
    2. 簇间距离(链接度量)(Linkage Metrics)
      1. 单链接(Single-linkage):簇间距离 = 两簇中任意样本的最短距离
      2. 全链接(Complete-linkage):簇间距离 = 两簇中任意样本的最长距离 (注意:比较的是谁的最长距离最小,而不是最大
      3. 平均链接(Average-linkage):簇间距离 = 两簇中所有样本的平均距离
    3. 方法特点:
      1. 优势:可通过树状图选择聚类数量;结果具有确定性;链接准则灵活
      2. 劣势:速度慢,朴素算法时间复杂度为n^3,仅部分链接准则存在n^2优化算法
  4. K-means 聚类
    1. 算法流程:
      1. 随机选k个样本作为初始值
      2. 将每个样本分配至最近的质心,形成k个簇
      3. 计算每个簇的新质心(簇内所有样本特征的平均值)
      4. 质心是否变化?
      5. 质心变化则返回第二步;质心不变则输出聚类结果
    2. 时间复杂度:knd (n:样本总数;d:计算单个样本与质心距离的耗时)
    3. 关键问题与解决办法:
      1. 问题1:k 值选择不当
      2. 解决办法:
        1. 利用领域先验知识(如已知 5 种细菌,设 k=5);
        2. 测试不同 k 值,评估聚类质量;
        3. 对部分数据运行层次聚类辅助选 k
      3. 问题2:依赖初始质心
      4. 解决办法:尝试多组随机初始质心,计算每组结果的差异,选择差异最小的结果作为最终聚类
  5. 聚类评估方法
    1. 核心评估指标:总差异(dissimilarity)
      1. 聚类质量通过 “总差异” 衡量,计算公式为:dissimilarity(clusters) = ∑ c∈clusters variability(c)
      2. 其中variability(c)(簇内差异)= 簇内所有样本到该簇质心的距离平方和。总差异越小,聚类质量越好(簇内样本越集中)
    2. 代码实现核心函数
      1. dissimilarity(clusters):计算所有簇的总差异
      2. trykmeans(examples, numClusters, numTrials):运行 numTrials 次 K-means,返回总差异最小的结果
      3. printClustering(clustering):输出各簇样本数与阳性率,辅助业务评估
  6. 关键问题
    1. 层次聚类与 K-means 聚类在适用场景和性能上有何核心差异?如何根据数据特点选择这两种方法?
      1. 适用场景:
        1. 层次聚类适用于无需提前确定聚类数量的场景(可通过树状图灵活选 k),或对聚类结果确定性要求高的场景(如小样本数据的精细分组)
        2. K-means 适用于已知聚类数量范围(如通过领域知识确定 k)、追求高效聚类的场景(如大样本数据)
      2. 性能:
        1. 层次聚类速度慢(朴素算法n^3),仅小样本适用
        2. K-means 速度快(单次迭代 knd),可处理大样本,但结果依赖初始质心(需多组测试)
      3. 选择依据:
        1. 选择层次聚类:若数据量小、需灵活选 k;;若需确定簇间关系(如层级结构)
        2. 选择K-means:若数据量大、已知 k 范围或可通过测试选 k;若需避免局部最优
    2. 在 K-means 聚类中,特征归一化(如 Z-Scaling)为何对聚类结果影响显著?
      1. 特征归一化的核心作用是消除特征量纲差异导致的权重失衡,避免数值范围大的特征主导距离计算(K-means 依赖样本与质心的距离)
      2. 未归一化的问题:患者数据中,“年龄”(如 20-80 岁)与 “ST 段抬高”(0/1 二元变量)数值范围差异极大,未归一化时,“年龄” 对距离的贡献远大于 “ST 段抬高”,导致聚类仅依赖年龄,无法捕捉 ST 段抬高(与心脏病风险直接相关)的特征,因此 k=2 时两簇阳性率接近(33.05% vs 33.33%),无实际意义
      3. 归一化的作用:Z-Scaling 后,所有特征均值为 0、标准差为 1,各特征对距离的贡献权重一致,聚类可同时考虑心率、既往病史、年龄、ST 段抬高的综合影响,k=2 时出现高风险簇(26 人,阳性率 69.23%)与低风险簇(224 人,阳性率 29.02%),聚类结果符合业务逻辑(高风险患者被有效区分),证明归一化能让 K-means 捕捉关键特征关联,提升聚类实用性
    3. 在聚类分析中,如何科学选择 K 值(聚类数量)?
      1. k 值选择方法:
        1. 利用领域先验知识(如已知 5 种细菌类型,直接设 k=5)
        2. 测试多组 k 值,通过 “总差异(dissimilarity)” 评估(总差异越小,聚类内一致性越高),同时结合业务指标(如患者聚类的阳性率)
        3. 对部分数据运行层次聚类,通过树状图的 “距离断点” 辅助确定 k 值范围
      2. k 值选择与业务目标的关系(以患者数据为例):
        1. 若业务目标是快速区分高 / 低风险患者:选 k=2,此时高风险簇(26 人,69.23% 阳性率)与低风险簇(224 人,29.02% 阳性率)界限清晰,可快速筛选高风险人群
        2. 若业务目标是细分高风险患者(如制定个性化干预方案):选 k=4 或 k=6,k=4 时出现两个高风险簇(69.23%、71.05%),k=6 时高风险簇进一步细分(最高 77.78% 阳性率),可针对不同高风险 subgroup 分析特征(如是否有多次既往心脏病发作),制定精准方案
        3. 若 k 值过大(如 k=10):可能导致簇样本量过小(如部分簇仅 5-10 人),阳性率波动大(无统计意义),不符合 “稳定分组” 的业务需求,因此 k 值需在 “细分程度” 与 “簇稳定性” 间平衡

今日总结

  1. 编程学习(进程)
  2. 看书一章
  3. 参加每周城市之旅活动,今天主要认识了一下小组成员以及了解了之后的安排,加了一个成员的微信,感觉通过介绍会是个不错的伙伴
  4. 把之前没学完的ppt学完了
  5. 英语学习

2025.10.17

Overview

  1. 今日学习笔记
  2. 句子摘录
  3. 昨天和今天的总结

学习笔记

概率

  1. 随机变量(Random Variables)
    1. Definition:设样本空间为 Ω,随机变量 X 是定义在 Ω 上、取值于实数集ℝ的函数,即X: Ω→R,X(ω) 表示对样本点 ω 的赋值
    2. Example:掷骰子(Ω={1,2,3,4,5,6}),X(1-3)=1(赢1元),X(4-6)=-1(输1元),刻画玩家收益
    3. 概率表示:事件 “X 取 x 值” 即 {ω∈Ω | X(ω)=x},概率简化记为P(X=x),且所有可能取值概率和为 1(∑P (X=x)=1)
  2. 离散型随机变量及其分布(Discrete Random Variables and Distributions)
    1. Definition:取值为有限个或可列个,且每个取值有其概率,不可能的取值的概率为0.
    2. 概率质量函数(probability mass function (pmf)):f(x)满足:
      1. f(x)≥0
      2. ∑f (x)=1(所有可能 x 求和)
    3. 分布函数(distribution function):F(x)=P(X≤x)=∑(x_j≤x) f(x_j),其具有性质:
      1. lim(x→-∞)F(x)=0
      2. lim(x→+∞)F(x)=1
      3. 非递减
      4. 0≤F(x)≤1
    4. 离散型随机变量的平均数或期望(mean or expectation or expected value):μ = E[X] = ∑_j x_j f(x_j), j = 1,2,…,n(f是X的pmf,x_j是X的可能取值)
      1. 进一步推导出:E[g(X)] = ∑_j g(x_j) f(x_j), j = 1,2,…,n
    5. 离散型随机变量的方差(variance):σ^2 = Var(X) = E[(X - E(X))^2] = ∑_j (x_j - E(X))^2 f(j_x)
      1. 方差提供𝑋围绕其均值E𝑋的离散程度的度量,其总是非负的
      2. 标准差(standard deviation):σ = √Var(X)
    6. 均值和方差的性质:
      1. 设𝑋为随机变量,我们考虑𝑋的线性函数:𝑌 = 𝑎𝑋 + b,a,b ∈ R 其具有性质:
        1. E(Y) = aE(X) + b
        2. Var(Y) = a^2Var(X)
      2. 可以用以下公式表示随机变量𝑋的方差: Var(X) = E(X^2) - E(X)^2
    7. 伯努利分布(Bernoulli Distribution):
      1. Definition:随机变量X只能取值1或0,其概率分别为 p ∈ (0,1),q(:= 1-p)
      2. 可能取值:1,2
      3. pmf:P(X=1) = p,P(X=0) = 1-p
      4. E (X):p
      5. Var (X):p(1-p)
    8. 二项分布(Binomial Distribution):𝑋 ∼ Bin(n,p),n∈ℕ, p∈(0,1))
      1. Definition:n次独立试验中成功次数的离散概率分布,每个试验的成功概率为𝑝
      2. 可能取值:0,1,…,n
      3. pmf:P(X=k) = C(n,k) p^k (1-p)^(n-k) (C(n,k) = n! / k! (n-k)!
      4. E (X):np
      5. Var (X):np(1-p)
    9. 泊松分布(Poisson Distribution):𝑋 ∼ Poi(λ),λ>0
      1. Definition:泊松分布是一种离散概率分布,用于计算在固定时间或空间间隔内,以已知平均发生率且独立于上次事件发生时间的事件发生次数的概率。
      2. 可能取值:0,1,2,…
      3. pmf:P(X=k) = e^(-λ) λ^k / k!
      4. E (X):λ
      5. Var (X):λ
      6. 注意:问题中给出的速率可能不是所需区间内的𝜆值!我们需要对其进行放大或缩小,以获得正确的𝜆值。(如给了一周的速率为𝜆,要计算两周的间隔则速率为2𝜆)
    10. 几何分布(Geometric Distribution):𝑋 ∼ Geo(p),p∈(0,1)
      1. Definition:经过X次试验才得到成功的结果
      2. 可能取值:1,2,3,…(不能为0)
      3. pmf:P(X=k) = p (1-p)^(k-1)
      4. E (X):1/p
      5. Var (X):(1-p)/p²
  3. 连续型随机变量及其分布(Continuous Random Variables and Distributions)
    1. Definition:取值能充满某个区间(或多个区间),且其取任何单个特定值的概率均为 0 的随机变量
    2. 概率密度函数(probability density function(pdf)):f(x)满足:
      1. f(x)≥0
      2. ∫(-∞到+∞) f(x) dx = 1
    3. 分布函数(Distribution Function):F(x) = P(X≤x) = ∫(-∞到 x) f(t) dt,具有性质:
      1. lim(x→-∞)F(x)=0
      2. lim(x→+∞)F(x)=1
      3. 𝐹可微(因此连续),是非递减函数
      4. 0 ≤ 𝐹(x)≤ 1
      5. f(x) = F’(x)
    4. 连续随机变量的均值(Mean of Continuous Random Variable):μ = E[x] = ∫(-∞到+∞) xf(x) dx ,(f(x)是pdf)
      1. 进一步推导出:E[g(X)] = ∫(-∞到+∞) g(x)f(x) dx
    5. 连续随机变量的方差(Variance of Continuous Random Variable):σ^2 = Var(X) = E[(X - E(X))^2] = ∫(-∞到+∞) (x - E(X))^2 f(x) dx
    6. 均值和方差的性质:
      1. 设𝑋为随机变量,我们考虑𝑋的线性函数:𝑌 = 𝑎𝑋 + b,a,b ∈ R 其具有性质:
        1. E(Y) = aE(X) + b
        2. Var(Y) = a^2Var(X)
      2. 我们可以用以下公式表示随机变量𝑋的方差: Var(X) = E(X^2) - E(X)^2
    7. 均匀分布(Uniform Distribution):X ~ U(a,b), a<b
      1. pdf:f(x) = 1/(b-a)(a<x<b),否则 0
      2. E(X):(a+b)/2
      3. Var(X):(b-a)²/12
    8. 指数分布(Exponential Distribution):X ~ Exp(λ),λ>0
      1. pdf:f(x) = λe^(-λx)(x≥0),否则 0
      2. E(X):1/λ
      3. Var(X):1/λ²
      4. 注意:指数分布常被用作描述特定事件发生前时间长度的分布(eg:从现在开始到发生地震的时间长度)
    9. 正态分布(Normal Distribution):X ~ N(μ,σ²),μ∈R, σ>0
      1. pdf:f(x)=1/(√(2π)σ)e^(-(x-μ)²/(2σ²))
      2. E(X):μ
      3. Var(X):σ²
      4. 正态分布关键特性:
        1. 标准化:若 XN (μ,σ²),则Z=(X-μ)/σN(0,1)(标准正态分布),通过标准正态表查概率
        2. 3σ 原则:P(μ-σ<X<μ+σ)≈68.27%,P(μ-2σ<X<μ+2σ)≈95.45%,P(μ-3σ<X<μ+3σ)≈99.73%
      5. 解题步骤:
        1. 将X转换成Z的范围
        2. 用上限减去下限
        3. 查找对应值带入计算

Z table

  1. 二维分布(2D Distributions)
    1. 二维离散分布(Discrete 2D Distributions)
      1. 联合 pmf:f (x_i,y_j)=P (X=x_i,Y=y_j),满足∑∑f (x_i,y_j)=1
      2. 边际 pmf:f_X (x_i)=∑(j) f (x_i,y_j)(对 Y 求和),f_Y (y_j)=∑(i) f (x_i,y_j)(对 X 求和)
      3. 分布函数:F(x,y) = ∑(x_i<=x)∑(y_i<=y) f(x_i,y_j)
      4. ∑i∑j f(x_i,y_j) = 1
      5. X的边际分布:f(x) = ∑j f(x,y_j)
      6. Y的边际分布:f(y) = ∑i f(x_i,y)
      7. 如果X和Y相互独立:f(x_i|y_j) = f(x_i) or f(x_i,y_j) = f(x_i)f(y_j)
      8. 期望值:E(g(X,Y)) = ∑i∑j g(x_i,y_j) f(x_i,y_j)
    2. 二维连续分布(Continuous 2D Distributions)
      1. 联合 pdf:f (x,y)≥0,∫(-∞到 +∞)∫(-∞到 +∞) f (x,y)dxdy = 1
      2. 边际 pdf:f_X (x)=∫(-∞到 +∞) f (x,y) dy,f_Y (y)=∫(-∞到 +∞) f (x,y) dx
      3. 分布函数:F(x,y) = ∫(Y<=y)∫(X<=x) f(X,Y)dXdY
      4. X的边际分布:f(x) = ∫(-∞到 +∞) f(x,y)dy
      5. Y的边际分布:f(y) = ∫(-∞到 +∞) f(x,y)dx
      6. 如果X和Y相互独立:f(x|y) = f(x) or f(x,y) = f(x)f(y)
      7. 期望值:E(g(X,Y)) = ∫(-∞到 +∞)∫(-∞到 +∞) g(x,y)f(x,y)dxdy
      8. P(a<=X<=b,c<=Y<=d) = ∫(c到d)∫(a到b) f(x,y)dxdy
      9. 条件概率描述 “在Y满足某条件时,X发生的概率”,分三类情况:
        1. P(X<=x|Y<=y) = P(X<=x|Y<=y) / P(Y<=y) = F(x,y) / F(y)
        2. P(X<=x|Y=y) = ∫(X<=x) f(x|y)dx = ∫(X<=x) f(x,y)/f(y) dx
        3. P(X<=x|Y>=y) = P(X<=x|Y>=y) / P(Y>=y) = ∫(Y>=y)∫(X<=x) f(x,y) dxdy / ∫(Y>=y) f(y) dy
  2. 数字特征与相关性
    1. 均值的运算性质
      1. 求和定理(Sum of Means):对任意随机变量 X₁,X₂,…,Xₙ(离散/连续、独立/依赖),E(X₁+X₂+…+Xₙ) = E(X₁)+E(X₂)+…+E(Xₙ)
      2. 乘积定理(Product of Means):仅当X₁,X₂,…,Xₙ独立时(每个随机变量的取值都不会对其他随机变量的取值概率产生影响)(离散、连续都适用),E(X₁X₂…Xₙ)=E(X₁)E(X₂)…E(Xₙ)
    2. 独立性与不相关性
      1. 独立性(independent):X与Y独立 -> f(x,y) = f(x)f(y)(离散pmf / 连续pdf)
      2. 不相关性(uncorrelated):X与Y不相关 -> E(XY) = E(X)E(Y) -> Cov(X,Y) = 0 -> ρ(X,Y) = 0
      3. 关系:独立→不相关,但不相关≠独立
    3. 协方差与相关系数
      1. 协方差(Covariance):Cov(X,Y) = E[(X-μ_X)(Y-μ_Y)] = E(XY) - E(X)E(Y),反映X与Y“同增同减” 趋势(Cov>0:正相关,Cov<0:负相关)
      2. 相关系数(Correlation):ρ(X,Y)=Cov (X,Y)/(σ_Xσ_Y),ρ∈[-1,1],是无量纲的线性关联度量
        1. ρ=1:完全正线性相关
        2. ρ=-1:完全负线性相关
        3. ρ=0:无线性相关
    4. 双变量正态分布
      1. 定义:X与Y联合正态 -> 对任意 a,b∈R,aX+bY 正态分布
      2. 关键性质:若 X 与 Y 联合正态且不相关(ρ=0),则X与Y独立(区别于一般随机变量)

摘录

  1. 我们一步一步走下去,踏踏实实地去走,永不抗拒生命交给我们的重负,才是一个勇者。到了蓦然回首的那一瞬间,生命必然给我们公平的答案和又一次乍喜的心情,那时的山和水,又恢复成最初单纯的样子,而人生走过的是多么美好的一个秋天。 – 三毛

昨日总结

昨天参加了本学期第一次飞盘活动,感觉是开学以来参与感最强的一次活动了,既能够充分运动,也可以认识很多朋友(争取吧)

今日总结

  1. 今天完成了概率课程的提交作业,整体写下来还是比较容易的,就是中途发现还是有些地方想得过于复杂了
  2. 读书一章
  3. 复习完全部单词
  4. 本周第二次网球活动

2025.10.15

Summary

  1. 今天受到之前表演时的一个外国朋友的邀请去到了专业的录音棚里面弹琴,以帮助他们学习如何调试录音设备,预计之后会有更多机会既能帮助他们完成毕设也能够让我体验梦寐以求的专业录音,所以接下来要好好练琴了
  2. 今天和老师汇报了一下近期的情况,还是比较满意吧
  3. 第二次参加本学期的网球社团活动,明显开始适应社团活动的流程了,今天从头到尾一直在打球,比起上一次体验感强多了

2025.10.13

Overview

  1. 十一回顾
  2. 思考与摘录
  3. 今日学习笔记
  4. 迎新晚会感受

十一回顾

  1. Day1:
    1. 上午到达杭州,在办理入住前在大厅里学习了一会儿
    2. 在办理完入住放好东西后去逛了杭州图书馆
    3. 之后去了天目里逛了一圈并在茑屋书店呆了一会儿
    4. 逛了五柳巷历史街区
    5. 前往胜利河美食街吃完饭并买了防晒防虫喷雾
  2. Day2:
    1. 早起坐车前往九溪烟树,走了九溪十八涧
    2. 中午前到达龙井村,被一家热情人家拉进去喝了一会儿龙井茶,聊天的过程中了解了龙井茶主要是采摘的春茶,且根据采摘的时间不同品质也有所区分,可分为明前茶、雨前茶和雨后茶,且采摘完的茶还要炒三遍需要花费一个多小时
    3. 在吃过午饭和买了点龙井茶后开始顺着十里锒铛开始爬茶山,一路直至云栖竹径出山
    4. 晚上前往参加Anson Seabra的live house
  3. Day3:
    1. 凌晨4点起床骑车前往西湖,到了后沿着北山街一路骑行欣赏夜景
    2. 于5点在神舟基地景点坐等日出
    3. 看完日出后骑行到西湖东南角开始环湖步行
    4. 用了不到3小时换西湖一圈
    5. 晚上前往城市阳台观看灯光秀
  4. Day4:
    1. 早起前往灵隐寺,并把整个景区逛完
    2. 骑车前往茅家埠,并徒步沿着湖边的小道把西湖西面逛完
    3. 乘坐了水上公交7号线
    4. 去了钟书阁
  5. Day5:
    1. 参加了西湖边的国庆音乐喷泉
    2. 买了伴手礼
  6. Day6:
    1. 去到了拱宸桥,逛了博物馆,并沿着河道一路观赏
    2. 乘坐了水上公交1号线
    3. 去了顾雪岩旧居,并一路穿过街巷直至西湖边
  7. Day7:
    1. 一整天在杭州宋城景区游玩
  8. Day8:
    1. 逛了良渚古城遗址公园
    2. 去了玉鸟集文艺街区
  9. Day9:
    1. 逛了西溪湿地
  10. Day10:
    1. 去了临安的青山湖,绕湖骑行一圈并参观了水上森林
    2. 下午再次去到茑屋书店用一下午的时间看完了《通往夏天的隧道,再见的出口》一书

由于最后一天晚上吃了一家过辣的饭导致接下来几天只能躺在宿舍

思考与摘录

思考:在旅行最后一下午我决心一直待在书店里看完一本书,最终总算在关店前看完了我此生最快速看完的一本书,我其实原本对看书就不是特别上心,虽然时常在脑海里闪过要多看书的念头,也常常去书店寻找自己感兴趣的书,但读着读着最后总会不了了之,所以这次我下定决心当天不看完不走,第一次快速完整的看完一本书真的很开心,而且其实之前就看过了这本书翻拍的电影,但这次读过原著后我深深体会到电影还是没办法很好展现书中的细节和打动人的地方的,所以经此转折我将对读书更进一步,我发现最近我读书的速度和耐心明显提升了,我终会将看书变成由衷热爱的事情
其次在旅行的其中一天我看到了一个让我收获很多的视频,视频采访了某个行业大佬,使我决定要将生活中的自己记录下来,我打算尝试拍点视频,而且也会在此后的博客文章中加入更多平日里的所思所想,这既是对自己的激励,也希望对日后读到这些内容的人们有所帮助

文案摘录:

  1. 心灯不借他人火,自照乾坤步步明,人生如逆旅,你我皆行人,唯有不断悦己、阅己、越己,才能活出生命的真正意义
  2. 所有不尊重你的人,赌的都是你没有前途,他们赌你会忍,赌你会忘,赌你就算记得也没有本事反抗。所以你一定要记住你来时路的苦楚,待到来年春暖花开时,愿你安睡时山河入梦,醒来时满目春风,愿你快乐事有始有终,愿你未来路坦荡从容
  3. 大仁不仁

学习笔记

数据科学(统计)

机器学习 – 让计算机无需显式编程即可获得学习能力的研究领域

  1. 与传统编程的区别:
    1. 传统编程:数据 + 预设程序(函数) –通过程序中的函数进行计算–> 基于计算得到结果
    2. 机器学习:数据 + 期望输出 –通过曲线拟合(如线性回归)等方式推导程序–> 能预测新数据的程序(模型)
  2. 机器学习的两种学习方式:
    1. 记忆(memorization):仅积累个体事实,限制于“观察事实的时间”和“储存事实的记忆空间”,无法应对未见过的情况
    2. 泛化(generalization):从已有的事实推导新事实,本质是一种预测活动,核心假设是“过去可以预测未来”,限制于“推导过程的准确性”,是机器学习的核心
  3. 机器学习的基本步骤:
    1. 观察训练数据:获取用于学习的样本集合
    2. 推断数据生成过程:通过算法(如线性回归拟合多项式曲线)分析训练数据,提炼数据背后的规律
    3. 预测测试数据:利用推断出的规律,对未见过的样本(测试数据)进行预测
  4. 机器学习的核心范式:监督学习与无监督学习
    1. 监督学习(supervised):
      1. 核心输入:包含 “特征 / 标签对” 的数据集,标签明确指示样本的类别
      2. 核心目标:找到能预测标签的规则,为未见过的输入(仅特征)分配正确标签。
      3. 关键任务:分类(classification)
        1. 目标:在特征空间中找到分隔不同标签组的 “分类面”(如 2D 空间中的直线、高维空间中的平面)
        2. 约束:需控制分类面复杂度,避免过拟合(若分类面过于复杂,会精准匹配训练数据但无法适应测试数据)
        3. 权衡:当标签组存在重叠时,需平衡 “假阳性”(将负类误判为正类)与 “假阴性”(将正类误判为负类)
      4. 案例:足球队员位置分类
    2. 无监督学习(unsupervised)
      1. 核心输入:仅包含特征向量的数据集,无任何标签信息
      2. 核心目标:将数据自动分组为 “自然簇”(具有相似特征的样本集合),或为不同簇创建标签
      3. 关键任务:聚类(clustering)
        1. 聚类步骤:
          1. 随机选择 k 个样本作为 “原型”(初始簇中心)
          2. 计算剩余样本与各原型的距离,将样本归入距离最近的簇(最小化簇内样本距离,即优化目标函数)
          3. 计算每个簇的中值样本,将其作为新原型
          4. 重复步骤 2-3,直至原型不再变化
        2. 关键指标:相似度(通过距离度量衡量,距离越小相似度越高)
      4. 案例:足球队员身高体重聚类
  5. 机器学习方法的关键要素
    1. 训练数据与评估方法
      1. 数据划分:需将数据集随机分为 “训练集”(用于学习模型)与 “测试集”(用于评估模型泛化能力),避免用训练数据直接评估(易高估性能)
      2. 评估逻辑:通过模型在测试集上的预测结果,判断模型是否能适应未见过的数据
    2. 特征表示与特征工程
      1. 核心观点:“所有模型都是错的,但有些是有用的”,特征的质量决定模型的有用性
      2. 特征工程目标:构建 “高信噪比(SNR)” 的特征向量 —— 最大化 “有用输入”占比,最小化 “无关输入”占比,避免过拟合
      3. 案例:爬行动物分类特征优化
    3. 距离度量(Distance Metric)
      1. 常用度量:闵可夫斯基度量
        1. 当 p=1 时:曼哈顿距离,计算各维度差值的绝对值之和,适用于维度不可比的场景
        2. 当 p=2 时:欧氏距离,计算各维度差值的平方和的平方根,是最常用的度量方式。
      2. 案例:动物距离计算对比
      3. 关键注意事项:需统一特征维度的权重,避免某一维度(如整数型腿数)对距离计算产生过度影响
    4. 目标函数与约束
      1. 目标函数:定义模型的优化方向(如聚类中 “最小化簇内样本距离”,分类中 “最大化分类面与样本的距离”)
      2. 约束条件:限制模型复杂度(如聚类中指定簇数 k,分类中限制分类面为直线而非复杂曲线),避免过拟合
    5. 优化方法:用于求解目标函数的算法,如聚类中 “更新簇中值为新原型”、分类中 “寻找最优分类面” 的梯度下降算法等
  6. 本节知识的重点问题
    1. 监督学习与无监督学习的核心差异是什么?在实际应用中如何选择这两种范式?
      1. 二者的核心差异体现在数据要求与核心目标上:
        1. 数据要求:监督学习需 “特征 / 标签对”,无监督学习仅需无标签特征向量
        2. 核心目标:监督学习目标是构建分类器,为新输入预测标签;无监督学习目标是将数据聚类为自然簇,挖掘隐含分组
      2. 实际应用选择依据:
        1. 若有明确的标签数据,且需预测新样本标签,选择监督学习
        2. 若无标签数据,仅需探索数据内在结构,或为后续监督学习生成初始标签,选择无监督学习
    2. 特征工程在机器学习中扮演什么角色?如何通过特征工程提升模型性能?
      1. 特征工程的核心角色是构建高信噪比(SNR)的特征向量,即筛选 “有用输入”、剔除 “无关输入”,直接决定模型能否从数据中学习到有效规律
      2. 提升模型性能的方式:
        1. 保留有用特征:选择与目标强相关的特征
        2. 剔除无关特征:移除与目标无关的特征
        3. 优化特征格式:统一特征维度权重(如将整数型 “腿数” 转为二进制,避免距离计算偏差)
    3. 什么是过拟合?为什么会出现过拟合?如何通过模型设计或评估方式避免过拟合?
      1. 过拟合定义:模型在训练数据上表现极佳,但在测试数据上表现差,即模型过度学习训练数据的噪声,而非普遍规律,无法泛化到新数据
      2. 过拟合原因:
        1. 模型复杂度过高
        2. 特征质量差
        3. 仅用训练数据评估模型
      3. 避免方式:
        1. 控制模型复杂度:如分类时选择简单分类面(直线 / 平面),聚类时限制簇数 k(而非 k 等于样本数)
        2. 优化特征工程:剔除无关特征,提升信噪比
        3. 合理划分数据与评估:将数据分为训练集与测试集,仅通过测试集性能判断模型好坏(如复杂模型训练准确率高但测试准确率低,需放弃)
        4. 权衡假阳性与假阴性:避免为追求训练准确率而构建过度复杂的模型

迎新晚会总结

今天的表演还算是成功吧,和上一次相比明显放松多了,而且这次的听众也挺多,再接再厉吧。

2025.9.23

Summary

  1. Python学习(封装、继承、多态、单例模式、魔法方法&属性)
  2. **之后的学习计划:算法与数据结构 –> 计算机基础知识(数据库、计算机组成原理、操作系统、计算机网络)
  3. 沟通完节目灯光安排
  4. 每日英语

2025.9.22

Overview

  1. 9.17–9.21 总结与反思
  2. 学习了本周以及假期的课件

9.17–9.21 总结与反思

过去几天有点放纵了,还是有点没克服因为一些身体上的原因而不影响状态,而且接下来必须做到睡前不看手机,并且需要注意在进行了比较剧烈的运动的当晚就要早点休息以防影响第二天的状态。
过去几天摩羯身上也接连出现状况导致心情有点受影响,不过现在我感觉我找到了担心的分界线,其实主要就是保持毛发和环境的干净,除此之外只要不是持续几天的异常都没必要太过担心。
不过还是有一些好事情发生的,比如:上周末通知了我的节目被通过了,这次一定要不留遗憾的表演成功;此外各个社团的招新也结束了,这周总算可以开始社团活动了,期待遇见优秀的人吧;最后唯一在过去几天里完成不错的就是依旧保持每天背单词了,总算一天不落的完成了开学打卡,期待下一次累签。

课件知识点

数据科学(统计)

核心目标:想要找到一个适合工业数据的模型,以实现两大功能
—— 解释数据背后的现象、对新场景下的行为进行预测

  1. 数据拟合核心内容
    1. 拟合目标:建立自变量(如质量)与因变量(如距离)的关系,找到最优拟合曲线
    2. 拟合评估指标:
      1. 最小二乘法目标函数:计算观测值与预测值差值平方和,最小化该值即最小化方差
      2. 平均均方误差:衡量模型拟合误差,公式为(误差总和/数据长度)
      3. 决定系数R²:反映模型对数据变异性的解释能力,越接近1代表模型越能解释数据的底层逻辑
    3. 多项式拟合时用到的拟合工具:Python pylab库函数,polyfit(求n次多项式系数,如n=1求直线系数)、polyval(根据模型计算预测值)
  2. 模型选择的关键矛盾:拟合优度与泛化能力
    1. 高阶模型的 “虚假优势” – 虽然在案例中的16 次多项式在训练数据上的R^2最高,但其并不能代表模型对新数据的适配能力(即泛化能力)
      1. 矛盾现象的根本原因:源于训练误差的局限性 – 训练误差仅反映模型在训练数据上的表现
      2. 过度拟合的本质:当模型复杂度(如多项式次数)过高时,会 “拟合噪声而非数据底层规律”
  3. 泛化能力的评估方法:交叉验证
    1. 核心逻辑:将数据分为训练集与测试集,用训练集构建模型后,在测试集上验证性能,测试误差更能反映泛化能力,且通常大于训练误差。
    2. 常用交叉验证策略:
      1. 留一法(Leave-one-out):适用于小数据集,每次从原始数据中剔除 1 个样本作为测试集,剩余作为训练集,重复所有样本后取测试结果平均值。
      2. k 折交叉验证(k-fold):适用于大数据集,将数据划分为 k 个等规模子集,每次用 k-1 个子集训练,1 个子集测试,循环 k 次后评估。
      3. 重复随机抽样验证:每次从数据中随机抽取 20%-50% 作为测试集,剩余为训练集,重复 k 次后取平均结果,降低随机划分带来的偏差。
  4. 模型复杂度的平衡策略
    1. 理论指导优先若存在明确理论(如胡克定律表明弹簧受力与位移呈线性关系),即使高阶模型(如二次多项式)在训练数据上R^2更高,仍应优先选择符合理论的模型
    2. 无理论时的搜索流程:
      1. 从低复杂度模型(如 1 次多项式)开始,在训练集上拟合
      2. 在测试集上验证并记录R^2
      3. 逐步提升模型复杂度,重复拟合与验证
      4. 当测试集R^2开始下降时,停止提升复杂度,选择此前最优模型
  5. 课程核心结论
    1. 线性回归的价值:可用于构建从自变量到因变量的映射模型,实现对未知数据的预测,但需结合模型复杂度控制
    2. R^2的合理使用:R^2是评估模型拟合优度的重要指标,但 “更高的R^2” 不代表 “更优模型”,需警惕过度拟合导致的泛化能力下降
    3. 模型选择三原则:
      1. 优先参考数据底层理论(如物理定律、业务逻辑)
      2. 用交叉验证验证模型泛化能力
      3. 在性能相近时,选择更简单的模型

概率

  1. Number systems(数字系统):
    1. natural numbers ℕ,integers ℤ,rational numbers ℚ,real numbers ℝ
  2. Closure(闭包):
    1. Definition:Let 𝑋 be a set of numbers. We say that 𝑋 is:
      1. closed under addition(加法封闭) if 𝑥 + 𝑦 ∈ 𝑋 whenever 𝑥,𝑦 ∈ 𝑋
      2. closed under multiplication(乘法封闭) if 𝑥𝑦 ∈ 𝑋 whenever 𝑥,𝑦 ∈ 𝑋
      3. closed under subtraction(减法封闭) if 𝑥 − 𝑦 ∈ 𝑋 whenever 𝑥,𝑦 ∈ 𝑋
      4. closed under division(除法封闭) if 𝑥/𝑦 ∈ 𝑋 whenever 𝑥,𝑦 ∈ 𝑋 and 𝑦 ≠ 0
    2. 注意:要证明一个集合在某个运算下不是闭的,只要给出一个精心挑选的例子(反例)就足够了。但要证明它是闭包的,则需要一个一般的论证
    3. 一个严格的证明必须从定义开始
  3. Permutations(排列)
    1. Definition:A permutation of objects is an arrangement of these objects in a row in some order
    2. Theorem 1:The number of permutations, or ordered arrangements, of 𝑛 distinct objects is 𝑛(𝑛 − 1)(𝑛 − 2) ⋯ 2 ⋅ 1 = 𝑛!
    3. Theorem 2:If 𝑛 objects consisting of 𝑐 classes of identical objects with size 𝑛1 , 𝑛2 , ⋯ , 𝑛C such that 𝑛1 + 𝑛2 + ⋯ + 𝑛C = 𝑛 , then the number of permutations of these 𝑛 objects is:𝑛! / 𝑛1!𝑛2!···𝑛C!
      1. 多重集合的排列数公式的理解:如果n个元素完全不同,那么它们的排列数是 n!。现在的情况是:n个元素分为c类,同类元素完全相同,第i类有ni个元素,此时,“同类元素的重复” 会导致 “原本不同的排列被算成了相同的”,所以要除以每一类重复元素内部的排列数
    4. Theorem 3:The number of permutations, or ordered arrangements, of 𝑛 distinct objects taken 𝑟 at a time , where 𝑟 ≤ 𝑛, is given by:𝑃(n,r) = n(n-1)(n-2)···(n-r+1) = n! / (n-r)!
  4. Combinations(组合)
    1. Theorem:Suppose we are now interested in the number of subsets of size 𝑟, where 𝑟 ≤ 𝑛, that can be chosen from 𝑛 distinct objects. The order of elements in each subset makes no difference.We denote as C(n,r) = n! / r!(n-r)!
    2. 注意:C(n,r) = C(n,n-r)
  5. Probability of Counting:Permutations and combinations can be used in finding probabilities.

2025.9.16

Summary

  1. 今天把之前做的python的基础语法的笔记复习完了
  2. 今天通过用AI解决了在PyCharm中打开学校Jupyter实验文件运行不了的问题
  3. 找到了一个适合一个人学习的地方