1. [置顶] Mixtral 8x7B:首个开源 MoE 大模型

    Mixtral 8x7B

    2023/12/13 LLM MoE

  2. [置顶] Flash-Attention

    Flash-Attention

    2023/12/13 Transformer

  3. [置顶] 英文论文 "万金油" 句子收集

    在阅读英文文献时,时不时记录一些比较好的句子

    2023/04/25 paper

  4. [置顶] 大模型时代下做科研的四种思路

    大模型时代下做科研的四种思路,包括 Parameter-Efficient Fine Tuning、Existing stuff (pretrained model) and New direction、Plug-and-play、Dataset, evaluation and survey

    2023/03/29 PEFT Prompt

  5. [置顶] P-Tuning

    P-Tuning:

    2023/03/14 Prompt Tuning

  6. 综述:神经网络量化(Quantization)

    关于神经网络量化(Quantization)的综述。

    2024/06/19 LLM Quantization

  7. LLM 的评价指标:Perplexity(PPL)

    详细介绍困惑度(Perplexity,PPL)的原理以及计算方式。

    2024/06/17 LLM GPT-2

  8. 训练一个 Tokenizer

    当训练 or 微调一个 LLM 时,我们通常需要自己训练一个 Tokenizer。

    2024/06/13 LLM

  9. 从零开始构建 NanoGPT

    NanoGPT 技术解析

    2024/06/12 LLM GPT-2

  10. RoPE-Tie(RoPE for Text-image)

    DeepSeek-V2

    2024/06/02 Transformer RoPE

  11. DeepSeek-V2:更强的开源 MoE 大模型

    DeepSeek-V2

    2024/06/02 LLM MoE

  12. KAN 网络

    MLP:先线性组合,再进行非线性的激活

    2024/05/19 KAN AI

  13. YOCO:You Only Cache Once

    YOCO:You Only Cache Once

    2024/05/12 LLM

  14. Mamba 的代码实现

    Mamba 的代码实现

    2024/04/30 SSM

  15. The Survey of Vision Mamba

    第一篇关于 Mamba 在计算机视觉领域中应用的综述

    2024/04/28 SSM