环境搭建
创建 conda 环境 安装 anaconda 或 miniconda (linux) 12345678# 下载wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x...
创建 conda 环境 安装 anaconda 或 miniconda (linux) 12345678# 下载wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x...
KV Cache KV Cache 是大模型推理性能优化的一个常用技术,该技术可以在不影响任何计算精度的前提下,通过空间换时间的思想,提高推理性能。 KV Cache 是什么 在没有KV Cache 的情况下,Attention 的计算过程如下...
大语言模型模块 三种类型的大语言模型: 大语言模型的正则位置、正则方法、激活函数、位置编码 正则方法: 作用:提升神经网络训练过程的稳定性、加速收敛速度以及最终提高模型性能 layerNorm——对单个样本的最优特征进行归一化(设定其方差和...
大语言模型训练超参数 批量训练 Batch Training 更大的Batch size 意味着更稳定的训练和更大的吞吐量,同时也需要更大的显存。 当然,可以使用梯度累计 (Gradient Accumulationn),在有限的显存下实习更大...
python 张量操作 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960...
绪论 机器学习三要素:模型、学习准则、优化算法 评估方法 留出法:直接将数据集划分为两个互斥的集合,其中一个为训练集,另一个为测试集。 交叉验证: 自助法:随机抽取m个样本进行进行训练,其余的用于模型评估(测试集) 训练集:用于模型学习 验证...
link 蒋老师的算法模板 清华机试题单 知识点回顾 基础 快读 12ios::sync_with_stdio(false);cin.tie(0); 语法相关 时空复杂度, TLE 时间 < 10810^8108 典型...
基础 快读 12ios::sync_with_stdio(false);cin.tie(0); 数据结构 堆(重载运算符) 1234567struct point{int num,dis; bool operator < (c...
创建专栏 source/_data/topic/专栏名称.yml1234name: hekaiyu # 在面包屑导航上会显示较短的名字title: 搭建个人博客 # 在列表页会显示完整的专栏标题description: 搭建Stellar主题博客...
创建blog模板 1hexo init 生成静态页面 1hexo g 上传github 1hexo d 生成本地服务 1hexo s