[译] GPT 是如何工作的：200 行 Python 代码实现一个极简 GPT（2023）

- - ArthurChiao's Blog

本文整理和翻译自 2023 年 Andrej Karpathy 的 twitter 和一篇文章： GPT as a finite-state markov chain. Andrej Karpathy 博士 2015 毕业于斯坦福，之后先在 OpenAI 待了两年，是 OpenAI 的创始成员和研究科学家，2017 年加入 Tesla，带领 Tesla Autopilot 团队， 2022 年离职后在 Youtube 上科普人工智能相关技术，2023 年重新回归 OpenAI.

GPT-2 Tokenizer 效率观察

- - Solrex Shuffling

对基于 Transformer 结构的 LLM （大语言模型）来说，模型的输入输出都是 Token（词元）. 一段输入文本，首先要经过 Tokenizer（分词器）切分成 Token 再输入给模型. 不同的 Tokenizer 会把文本按不同的边界切分，那一段文本到底会被切成几个 Token 就体现了 Tokenizer 本身的效率，这本身也是信息论的讨论范畴.

免费可商用开源GPT模型问世，50G权重直接下载，性能不输GPT-3

- - 量子位

量子位 | 公众号 QbitAI. 真·开源GPT模型，终于来了. 参数量级130亿，大小比肩最近Meta开放的LLaMA-13B，但从数据集、模型权重到计算优化训练，全部开源. 没错，虽然就GPT-3而言，之前DeepMind、Meta等组织陆陆续续开源过几个模型，不过基本都是半遮半掩. 尤其最接近GPT-3的Meta OPT模型，不仅权重只开放给研究者，而且不可商用：.

dropbox讲python

- chuang - Initiative

dropbox定制优化CPython虚拟机，自己搞了个malloc调度算法. 那个 !!!111cos(0). 期待这次PyCon China 2011.

Python调试

- - 企业架构 - ITeye博客

原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137. 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧：. IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试：.

Python WSGI 初探

- - 坚实的幻想

在构建 Web 应用时，通常会有 Web Server 和 Application Server 两种角色. 其中 Web Server 主要负责接受来自用户的请求，解析 HTTP 协议，并将请求转发给 Application Server，Application Server 主要负责处理用户的请求，并将处理的结果返回给 Web Server，最终 Web Server 将结果返回给用户.

GPT-4重磅发布，你需要知道的10件事

- - 广告网 - 行业观察

本文由全元宇宙Allmetaverse主理人郑秋实出品. 2023年3月14日，OpenAI正式发布全新大型多模态模型GPT-4. OpenAI在以ChatGPT震撼全球的短短几个月之后，火速上线新一代里程碑GPT-4. 相较于上一代的ChatGPT和GPT-3.5, GPT-4到底带来了哪些更新，本文将为你快速盘点：.

Python实现逻辑回归(Logistic Regression in Python)

- - 神刀安全网

Logistic Regression in Python ，作了中文翻译，并相应补充了一些内容. 本文并不研究逻辑回归具体算法实现，而是使用了一些算法库，旨在帮助需要用Python来做逻辑回归的训练和预测的读者快速上手. 逻辑回归是一项可用于预测二分类结果(binary outcome)的统计技术，广泛应用于金融、医学、犯罪学和其他社会科学中.

python 下载文件

- Eric - python相关的python 教程和python 下载你可以在老王python里寻觅

之前给大家分享的python 多线程抓取网页，我觉的大家看了以后，应该会对python 抓取网页有个很好的认识,不过这个只能用python 来抓取到网页的源代码，如果你想用做python 下载文件的话，上面的可能就不适合你了，最近我在用python 做文件下载的时候就遇到这个问题了，不过最终得以解决，为了让大家以后碰过这个问题有更好的解决办法，我把代码发出来：.

python代码调试

- - 阿里古古

【转自： http://blog.csdn.net/luckeryin/article/details/4477233】. 本文讨论在没有方便的IDE工具可用的情况下，使用pdb调试python程序. 例如，有模拟税收计算的程序：. debug_demo函数计算4500的入账所需的税收. 在需要插入断点的地方，加入红色部分代码：如果_DEBUG值为True，则在该处开始调试（加入_DEBUG的原因是为了方便打开/关闭调试）.

[译] GPT 是如何工作的：200 行 Python 代码实现一个极简 GPT（2023）

译者序

摘要

1 引言

1.1 极简 GPT：token 只有 0 和 1

1.2 状态（上下文）和上下文长度

1.3 状态空间

1.3.1 简化版状态空间

1.3.2 真实版状态空间

1.4 状态转移

1.5 马尔科夫链

2 准备工作

2.1 安装 pytorch

2.2 BabyGPT 源码 babygpt.py

3 基于 BabyGPT 创建一个 binary GPT

3.1 设置 GPT 参数

3.2 随机初始化

3.2.1 查看初始状态和转移概率

3.2.2 状态转移图

3.3 训练

3.3.1 输入序列预处理

3.3.2 开始训练

3.3.3 训练之后的状态转移概率图

3.4 采样（推理）

3.5 完整示例

4 问题讨论

4.1 词典大小和上下文长度

4.2 模型对比：计算机 vs. GPT

4.3 模型参数大小（GPT 2/3/4）

4.4 外部输入（I/O 设备）

4.5 AI 安全

5 其他： vocab_size=3,context_length=2 BabyGPT

相关 [gpt 工作 python] 推荐：

相关文章

订阅

2.2 BabyGPT 源码 `babygpt.py`

5 其他： `vocab_size=3,context_length=2` BabyGPT