Overview
- 前段时间的总结
- 学习笔记
- 今日收获
前段时间的总结
从上次博客之后以及一周多了,这期间每天都被牙疼所困扰,从而导致作息被打乱了,且状态明显有所下降。但是不能再继续下去了,从今天开始吃两天药看能不能缓解,实在不行就去医院看看。
在这段时间内虽然生活被有点打乱,但是还是完成了不少有意义的事情的:上周的两次飞盘活动明显参与感更好了,虽然第一次的活动由于失误误伤了一个同学,但幸好问题不是特别严重,周末的第二次活动上更是难得和一名同学在练习时交流的非常开心,希望之后能够继续照这样发展。其次上周末按惯例去参加了志愿者活动,虽然因为我的固执导致被咬了一下,但没什么大碍,就是我发现我买的防水服洗过之后还是有很大的味道,没办法只能再多洗几次看看行不行吧。昨天进行了第一次的城市之旅活动,这次的主题是“食”,由于我的两个行程都被婉拒了所以最后就在学校里的一个饭店吃了个晚饭,顺便把之后几期的活动都交给对应的人来安排,虽然活动的人有点少,但是我感觉还是很不错的,尤其和老师交流的挺开心,完全像是和朋友一样特别轻松自在。
学习笔记
数据科学(统计)
- 监督学习(Supervised Learning)基础框架
- 核心流程:数据准备→选择算法→拟合模型→评估模型→更新模型→进行预测 (损失(Loss):预测结果与真实结果的差异)
- 任务分类:
- 回归:预测与特征向量关联的实数,例如用线性回归对数据拟合曲线
- 分类:预测与特征向量关联的离散标签
- KNN(K 近邻)分类算法
- 原理:基于距离矩阵计算样本间相似度,最简单的实现是 “最近邻”—— 预测新样本时,找到训练集中距离最近的样本,直接沿用其标签;扩展为 “K 近邻” 时,取前 K 个最近样本的标签进行投票
- 优点:
- 学习速度快,无显式训练过程
- 无需复杂理论支撑
- 方法与结果易解释
- 缺点:
- 内存密集,预测耗时较长
- 暴力搜索并非最优算法
- 无模型可解释数据生成过程
- 分类模型的评估体系
- 仅用 “准确率” 评估存在局限性,需补充以下指标:
- 灵敏度(召回率):sensitivity = truepositive / truepositive + falsenegative
- 特异性:specificity = truenegative / truenegative + falsepositive
- 阳性预测值:positivepredictivevalue = truepositive / truepositive + falsepositive
- 测试方法:
- 留一法(Leave-one-out):遍历每个样本,以该样本为测试集、其余为训练集,循环计算指标
- 重复随机抽样:如 80/20 分割数据(20% 为测试集,80% 为训练集),多次重复抽样以降低随机性影响
- K 折交叉验证:首先将数据集均匀划分为 K 个规模相近的子集(即 “K 折”);随后,循环进行 K 次模型训练与测试 —— 每次训练时,用其中 K-1 个子集作为训练数据拟合模型,剩余 1 个子集作为测试数据评估模型性能;最后,综合 K 次测试的结果(如灵敏度、特异性等),取平均值作为模型的最终性能评估,以此在计算量与损失估计准确率之间达到平衡
- 仅用 “准确率” 评估存在局限性,需补充以下指标:
- 逻辑回归算法详解
- 核心特点:
- 用途:专门预测事件发生的概率,因变量仅取有限值(通常为 0 或 1)
- 特征权重:每个特征对应一个权重,正权重表示特征与结果正相关,负权重表示负相关,权重绝对值反映相关性强度
- 核心函数:逻辑函数(sigmoid 函数),将线性输出映射到 0-1 区间(概率)
- 核心特点:
今日收获
今天打算开始认真攻克英语口语,我创建了一个word文档用来记录所学的口语知识(固定搭配、语法、连读习惯···)