线性代数
行列式 n阶行列式值的性质 交换行列式两行(列), 行列式变号 行列式某一行(列)所有元素都乘以同一个数k,等于数k乘此行列式 ∣a11⋯a1j+a1i⋯a1na21⋯a2j+a2i⋯a2n⋯⋯⋯⋯⋯an1⋯anj+ani⋯ann∣=∣a1...
行列式 n阶行列式值的性质 交换行列式两行(列), 行列式变号 行列式某一行(列)所有元素都乘以同一个数k,等于数k乘此行列式 ∣a11⋯a1j+a1i⋯a1na21⋯a2j+a2i⋯a2n⋯⋯⋯⋯⋯an1⋯anj+ani⋯ann∣=∣a1...
创建 conda 环境 安装 anaconda 或 miniconda (linux) 12345678# 下载wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x...
KV Cache KV Cache 是大模型推理性能优化的一个常用技术,该技术可以在不影响任何计算精度的前提下,通过空间换时间的思想,提高推理性能。 KV Cache 是什么 在没有KV Cache 的情况下,Attention 的计算过程如下...
大语言模型模块 三种类型的大语言模型: 大语言模型的正则位置、正则方法、激活函数、位置编码 正则方法: 作用:提升神经网络训练过程的稳定性、加速收敛速度以及最终提高模型性能 layerNorm——对单个样本的最优特征进行归一化(设定其方差和...
大语言模型训练超参数 批量训练 Batch Training 更大的Batch size 意味着更稳定的训练和更大的吞吐量,同时也需要更大的显存。 当然,可以使用梯度累计 (Gradient Accumulationn),在有限的显存下实习更大...
python 张量操作 张量操作12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758...
机器学习三要素:模型、学习准则、优化算法 贝叶斯公式 最小错误率贝叶斯决策 后验概率 P(ω1∣x)=P(x∣ω1)P(ω1)∑P(x∣ωj)P(ωj)P(\omega_1 | x) = \dfrac{P(x|\omega_1)P(\omeg...
link 蒋老师的算法模板 清华机试题单 知识点回顾 基础 快读 12ios::sync_with_stdio(false);cin.tie(0); 语法相关 时空复杂度, TLE 时间 < 10810^8108 典型...
基础 快读 12ios::sync_with_stdio(false);cin.tie(0); 数据结构 堆(重载运算符) 1234567struct point{int num,dis; bool operator < (c...
创建专栏 source/_data/topic/专栏名称.yml1234name: hekaiyu # 在面包屑导航上会显示较短的名字title: 搭建个人博客 # 在列表页会显示完整的专栏标题description: 搭建Stellar主题博客...