18. microgpt の構造

18.1. この章で学ぶこと

  • microgpt.py7 つのブロック(準備から推論まで)として俯瞰する

  • 各ブロックが データと制御の流れでどうつながるかをつかむ

  • 詳細は 19 章 以降でブロックごとに読む前提の「地図」を手に入れる

17 章 では仕様と入出力を振り返りました。この章では 全体の骨格だけを示します。長いコードの引用は置かず、短い説明と「どの章を読めばよいか」の対応表に留めます。

18.2. 全体地図(入出力と 7 ブロック)

左に学習用の入力(文書集合と input.txt)、右に学習で更新される重みと、推論で得られる生成列を置きます。中央には、17 章 でも触れた B1〜B7 を配置しています。Value(計算グラフ)と state_dict(学習対象パラメータの束)は データストアを円筒形のノードで示します。

diagram

図: 依存の目安。実装では gpt が学習と推論の両方から呼ばれ、学習ループが B4 を更新します。

18.3. ブロックから章への対応

ブロック

内容の要約

詳細を読む章

B1, B2

docsucharsBOS、トークン化

19 章

B3, B4

Valuestate_dict / params、初期化

20 章

(B5 の部品)

linear / softmax / rmsnorm

21 章

B5

gpt 本体(埋め込み、Attention、MLP、logits)

22 章

B6

学習ループ、損失、Adam

23 章

B7

temperature、サンプリング、終了条件

24 章

18.4. 次に読む章

19 章microgpt の前処理)から、上表の順に細部へ進んでください。Python 実装を Mojo へ移す話は 25 章、MAX の紹介は 26 章 です。