目前研三在读,对机器学习,深度学习的算法,理论较为感兴趣,后面将会转向AIGC,大模型等领域
关于数学
实变函数论
主要是基础的测度论,可测函数的各种收敛,后续可用于构建范数空间,内积空间,研究函数空间的几何结构,
也可以用于建立测度,将概率的东西用抽象的方式定义出来,以推出更高深的结论.
泛函分析
(1).巴拿赫空间,希尔伯特空间,实际就是在线性空间里面引入了范数,然后探讨这个空间的几何结构;
(2).基础的算子理论,不再局限于有界线性算子(用矩阵表示),而是推广到更一般的算子.
note
感觉除了对后面偏微分方程非常有用,对于其它用处也不是特别大,比如傅里叶分析,仅仅只用到了
里面的内积空间,投影的概念,收敛性的分析其实还是实变函数范畴的东西.更用不上算子了.
核心思想其实就是把有限维空间那套东西推广到无线维空间了,把函数放到空间里,换各种基来看是
什么样的,然后原空间做了这样的变换,到了频域或者什么空间对应什么其它变换.
选了合适的基向量,就能让耦合系统解耦,耦合方程解耦,数据压缩(把数据看成三角形斜边,丢掉短直角边,用另一条差不多长的直角边代替这个斜边,这个直角边就是压缩后的向量).
还有什么相关函数,求能量谱什么的,PCA相关矩阵,Grammar矩阵什么的,这些东西的定义只要搞清楚它原先是拿来干什么事情的,从哪里推着推着就冒出来的,你就能搞清楚这些矩阵是用来描述什么事情的,以及求
特征值特征向量或者做个什么变换,是为了干什么的.
测度论与概率论
基于测度论的概率论,在测度空间中定义了新的积分,新的微分,几个基础主线:
(1).概率,期望是如何用测度理论定义的? 如何把抽象空间上的积分转化为黎曼勒贝格积分?
(2).测度空间上的微分定理(Radon-Nikodym定理),直接把概率密度和条件期望以最抽象的形式定义了出来
(3).条件期望,实际就是随机变量(可测函数)在子$\sigma$域上的投影,这也就是为什么回归曲线就是条件期望(最佳逼近投影)
(4).几个大数定律,经过上面铺垫,终于能拿极限的工具研究概率论了
傅里叶分析
这部分涉及到4个变换,分别从离散,连续的时域信号变换到离散,连续的频域信号,并且这里面的变换
涉及到3个空间,分别是$L_1 , L_p$和$L_\infty$空间,只有高数书上那个最简单的傅里叶级数的收敛性证明是容易
看得懂的,其它3个,正常的书里面绝对不涉及到收敛性证明,因为超纲了.所以就不要纳闷sinx是如何在
负无穷到正无穷上积分了,普通积分积不出来没定义的东西,在物理广义函数那里都给你定义好了,直接
拿来用就好了,我在刚开始学习的时候,对一些看起来明显发散的积分看着特别难受,想想这都能积,还若无其事
的推导下去,都有问题了还继续推.具体4个变换的详细请见分析笔记
矩阵论
(1).还是赋范线性空间,内积空间那些基础理论,矩阵这一套在这里都是从几何空间角度去写的
(2).矩阵分解,一般矩阵的Jordan分解(选一般基),然后放到内积空间里,对于一般矩阵有个Schur定理,
对一般矩阵进行分解,然后接着这个定理就能堆出奇异值分解(放在机器学习里,就是重新编码,降维了),
还有一个常用的就是实对称矩阵的分解,因为实对称矩阵经常出现在各种应用的推导过程中,比如统计分析
里面的协方差矩阵,以及随机过程里面的相关函数,就是为了得到能量谱或者方差分布,然后进行傅里叶变换
或者实对称矩阵分解,就能得到主轴或者什么.本质都是一回事,这里就不细说了.
(3).矩阵求导术,这部分普通矩阵论书都不提,但是我在做深度学习框架从零实现的时候,需要用到,各种算子
的反向传播就靠它了
关于机器学习与深度学习
机器学习
(1).有监督学习: 主要是各种分类器,LDA,SVM,这个也不常用了,偶尔论文里对比实验拿来调调sklern库跑一下
(2).无监督编码: SVD,PCA,典型的两种降维编码算法,实用性也不高,还有就是聚类算法,这些主页里有从零实现的笔记
(3).建模理论: 就是基于概率去建模,各种模型背后如何work的,就靠概率公式,公式与模型真正融汇贯通,主要就是判别模型,
生成模型(涉及隐变量的模型),语言模型(seq2seq),无论深度学习还是机器学习,这部分理论是一致的.
深度学习
(1).上面提到的建模理论(后面有时间会详细写出来,绝不是类似教科书那样的搬公式,和代码脱钩,正常人都不能真正明白)
(2).深度学习框架的几个核心:
a.各种网络,卷积,循环,注意力,这个就是空壳子,
告诉你用线性直线还是多项式曲线还是更复杂的什么东西去做分类和拟合;
或者告诉你用svd,还是pca,还是傅里叶变换,还是vae,还是什么网络变换去对特征压缩编码;
b.框架的几个其它部分都亲手实现过,loss,optimizer等,对内部细节都挖开写过,具备开发和魔改能力
这部分具体参考主页深度学习笔记部分;
(3).论文复现,由于有了上述基础,理论和代码功底基本都具备了一些,所以一些简单的论文都能理解并复现(
能够按意思复现并work,但是准确率之类的可能达不到);
比如复现了对比学习的两种有监督形式(simclr的有监督形式,moco的有监督形式),以及大模型微调的LoRA
的一个简单实现.
(4).项目:一个就是上面讲的深度学习框架,还有就是自己的课题方向,手势识别,手语识别,实现深度学习框架稍微难一点,一些应用项目可能较为简单.
Contact me
- Wechat: 18919703193
- Email: lucario@qq.com or willem.0126@gmail.com