Bookstall

[置顶] Mixtral 8x7B：首个开源 MoE 大模型

Mixtral 8x7B

2023/12/13 LLM MoE

[置顶] Flash-Attention

Flash-Attention

2023/12/13 Transformer

[置顶] 英文论文 "万金油" 句子收集

在阅读英文文献时，时不时记录一些比较好的句子

2023/04/25 paper

[置顶] 大模型时代下做科研的四种思路

大模型时代下做科研的四种思路，包括 Parameter-Efficient Fine Tuning、Existing stuff (pretrained model) and New direction、Plug-and-play、Dataset, evaluation and survey

2023/03/29 PEFT Prompt

[置顶] P-Tuning

P-Tuning：

2023/03/14 Prompt Tuning

综述：神经网络量化（Quantization）

关于神经网络量化（Quantization）的综述。

2024/06/19 LLM Quantization

LLM 的评价指标：Perplexity（PPL）

详细介绍困惑度（Perplexity，PPL）的原理以及计算方式。

2024/06/17 LLM GPT-2

训练一个 Tokenizer

当训练 or 微调一个 LLM 时，我们通常需要自己训练一个 Tokenizer。

2024/06/13 LLM

从零开始构建 NanoGPT

NanoGPT 技术解析

2024/06/12 LLM GPT-2

RoPE-Tie（RoPE for Text-image）

DeepSeek-V2

2024/06/02 Transformer RoPE

DeepSeek-V2：更强的开源 MoE 大模型

DeepSeek-V2

2024/06/02 LLM MoE

KAN 网络

MLP：先线性组合，再进行非线性的激活

2024/05/19 KAN AI

YOCO：You Only Cache Once

2024/05/12 LLM

Mamba 的代码实现

2024/04/30 SSM

The Survey of Vision Mamba

第一篇关于 Mamba 在计算机视觉领域中应用的综述

2024/04/28 SSM

Bookstall

逃离地球的 Bookstall

[置顶] Mixtral 8x7B：首个开源 MoE 大模型

[置顶] Flash-Attention

[置顶] 英文论文 "万金油" 句子收集

[置顶] 大模型时代下做科研的四种思路

[置顶] P-Tuning

综述：神经网络量化（Quantization）

LLM 的评价指标：Perplexity（PPL）

训练一个 Tokenizer

从零开始构建 NanoGPT

RoPE-Tie（RoPE for Text-image）

DeepSeek-V2：更强的开源 MoE 大模型

KAN 网络

YOCO：You Only Cache Once

Mamba 的代码实现

The Survey of Vision Mamba

Search

Categories Cloud

My Popular Repositories

Bookstall.github.io

Test

github-readme-stats

Bookstall

blog-comments