环境搭建

创建 conda 环境 安装 anaconda 或 miniconda (linux) 12345678# 下载wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x...

深度学习

大模型推理加速:KV Cache 与 GQA

KV Cache KV Cache 是大模型推理性能优化的一个常用技术,该技术可以在不影响任何计算精度的前提下,通过空间换时间的思想,提高推理性能。 KV Cache 是什么 在没有KV Cache 的情况下,Attention 的计算过程如下...

深度学习

开源大语言模型框架

大语言模型模块 三种类型的大语言模型: 大语言模型的正则位置、正则方法、激活函数、位置编码 正则方法: 作用:提升神经网络训练过程的稳定性、加速收敛速度以及最终提高模型性能 layerNorm——对单个样本的最优特征进行归一化(设定其方差和...

深度学习

大语言模型训练

大语言模型训练超参数 批量训练 Batch Training 更大的Batch size 意味着更稳定的训练和更大的吞吐量,同时也需要更大的显存。 当然,可以使用梯度累计 (Gradient Accumulationn),在有限的显存下实习更大...

深度学习

深度学习(代码)

python 张量操作 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960...

深度学习

模式识别与机器学习

绪论 机器学习三要素:模型、学习准则、优化算法 评估方法 留出法:直接将数据集划分为两个互斥的集合,其中一个为训练集,另一个为测试集。 交叉验证: 自助法:随机抽取m个样本进行进行训练,其余的用于模型评估(测试集) 训练集:用于模型学习 验证...

深度学习