Mixtral 8x7B
Flash-Attention
在阅读英文文献时,时不时记录一些比较好的句子
大模型时代下做科研的四种思路,包括 Parameter-Efficient Fine Tuning、Existing stuff (pretrained model) and New direction、Plug-and-play、Dataset, evaluation and survey
P-Tuning:
关于神经网络量化(Quantization)的综述。
详细介绍困惑度(Perplexity,PPL)的原理以及计算方式。
当训练 or 微调一个 LLM 时,我们通常需要自己训练一个 Tokenizer。
NanoGPT 技术解析
DeepSeek-V2
DeepSeek-V2
MLP:先线性组合,再进行非线性的激活
YOCO:You Only Cache Once
Mamba 的代码实现
第一篇关于 Mamba 在计算机视觉领域中应用的综述