2021-04-17

Deno で学ぶ HTTP/2 の仕組み

先日 Deno のv1.9がリリースされ、HTTP/2 に対応したサーバを立てられるようになった。

deno.com

zenn.dev

この記事では Deno で実際にサーバを立てながら、HTTP/2 の特徴を見ていく。

動作確認は以下の環境で行った。

Deno1.9.0
Google Chrome90.0.4430.72
curl7.54.0

TLS の利用が必須

Deno で HTTP/2 対応のサーバを立てるためには、TLS の利用が必須である。
これは Deno に特有のことではなく、現在の主要なブラウザは全て、TLS 上でのみ HTTP/2 を利用できるようになっている。
仕様上では TLS を使わなくても HTTP/2 を利用できることになっているが、実務においては TLS の利用が前提になっていると考えていいと思う。

そのため、ローカル環境で HTTP/2 を利用したい場合はまず、TLS の準備をする必要がある。
その手順については以前ブログにまとめており、今回もこの方法で準備した。localhost.numb86.netというドメインで TLS を使える状態になっている。

numb86-tech.hatenablog.com

ALPN によるプロトコルのネゴシエーション

HTTP/2 で通信を行うには、サーバとクライアントの両方が HTTP/2 に対応している必要がある。
主要なブラウザは全て対応しているので、あとはサーバさえ対応していれば HTTP/2 での通信が行える。
サーバが HTTP/2 に対応しているのかの確認は、ALPN という方式で行われる。

HTTP 通信を行う際には、まず TCP のハンドシェイクが行われる。
そしてその後 TLS のハンドシェイクを行い、それが終わってから HTTP メッセージの送信が始まる。
ALPN では、TLS ハンドシェイクの際に、使用可能なプロトコルのリストをクライアントが渡す。そしてサーバはその中から、どのプロトコルを使って通信を行うのかを決め、クライアントに渡す。
このようにして、どのプロトコルで通信をするのかが決まるのである。
クライアントが渡すリストのなかに HTTP/2 が入っており、サーバがそれを選べば、HTTP/2 での通信が始まる。

ALPN で選択できるプロトコル一覧は、以下で確認できる。
Transport Layer Security (TLS) Extensions

Deno で指定できるのは、今のところhttp/1.1とh2のようだ。
指定がなかった場合は HTTP/1.1 が採用される。
Deno 1.9 Release Notes | Deno Blog

実際にサーバを立てて、確認してみる。

server.tsという名前で以下のコードを書き、$ deno run --unstable --allow-net --allow-read server.tsで実行する。

const listener = Deno.listenTls({
  port: 8443,
  certFile: "./cert.pem",
  keyFile: "./privkey.pem",
  alpnProtocols: ["h2", "http/1.1"],
});

for await (const conn of listener) {
  handleConn(conn);
}

async function handleConn(conn: Deno.Conn) {
  const httpConn = Deno.serveHttp(conn);
  for await (const { respondWith } of httpConn) {
    respondWith(new Response("Hello!\n"));
  }
}

こうするとhttps://localhost.numb86.net:8443/で HTTP/2 に対応したサーバにアクセスできるはずなので、curl で確認してみる。

$ curl https://localhost.numb86.net:8443/
Hello!
$ curl -I https://localhost.numb86.net:8443/
HTTP/2 200
date: Fri, 16 Apr 2021 23:22:33 GMT
content-length: 7

HTTP/2 を使った通信になっているのが分かる。

-vフラグをつけると、ALPN の情報も得られる。

$ curl -v https://localhost.numb86.net:8443/
* ALPN, offering h2
* ALPN, offering http/1.1

* ALPN, server accepted to use h2

< HTTP/2 200

クライアントがh2とhttp/1.1を提示して、サーバがh2を使うことにしているのが分かる。

コードのalpnProtocolsの部分を書き換えて、alpnProtocols: ["http/1.1", "h2"],にしてみる。

* ALPN, offering h2
* ALPN, offering http/1.1

* ALPN, server accepted to use http/1.1

< HTTP/1.1 200 OK

そうすると、http/1.1が選ばれる。

alpnProtocolsの行をコメントアウトすると、ネゴシエーションが上手くいかない。
やり取りは HTTP/1.1 で行うことになる。

* ALPN, offering h2
* ALPN, offering http/1.1

* ALPN, server did not agree to a protocol

< HTTP/1.1 200 OK

フレーム

HTTP/2 になっても、HTTP のシンタックスは変わらない。HTTP の利用者は違いを意識しなくても利用できる。
だがその中身は大幅に変わっており、HTTP/1.1 とは全くの別物になっている。
HTTP/2 の最大の特徴は、データをバイナリ形式にエンコーディングして送受信するということ。HTTP/1.1 ではプレーンテキストでデータを送受信していた。

Deno で TCP サーバを書いて、確認してみる。

const listener = Deno.listenTls({
  port: 8443,
  certFile: "./cert.pem",
  keyFile: "./privkey.pem",
});

for await (const conn of listener) {
  const buffer = new Uint8Array(128);
  await conn.read(buffer);
  const decode = new TextDecoder().decode(buffer);
  console.log(decode); // 受け取ったデータを表示する
  conn.write(buffer);
  conn.closeWrite();
}

alpnProtocolsを設定していないので、HTTP/1.1 でやり取りが行われる。

この状態で$ curl https://localhost.numb86.net:8443/を実行してリクエストを送ると、以下のログが流れる。

GET / HTTP/1.1
Host: localhost.numb86.net:8443
User-Agent: curl/7.54.0
Accept: */*

次にalpnProtocolsを設定して HTTP/2 を利用するようにして、同様の確認を行う。
すると、流れるログは以下のようになる。

PRI * HTTP/2.0

SM

d?�&���A����    ^�i������M3z�%�Pë���S*/*

HTTP/1.1 はテキスト、HTTP/2 はバイナリで、やり取りを行っている。

そして HTTP/2 は、HTTP メッセージをバイナリ形式に変換するだけでなく、小さく分割してから送信している。
このひとつひとつの小さなバイナリデータを、フレームと呼ぶ。
HTTP/2 に対応しているクライアントやサーバは、HTTP メッセージをフレームへと分解してから送信し、それを受け取った側はフレームを組み立て HTTP メッセージを再構成していることになる。
なぜこんな面倒なことをしているのかというと、これによって、ひとつの TCP 接続のなかに複数の HTTP メッセージを混在させることができるからである。フレームという単位でやり取りが行われるため、ひとつの HTTP メッセージが TCP 接続を専有してしまうということがなくなった。

ストリーム

ひとつの TCP 接続のなかに複数の HTTP メッセージを混在させることができるということは、複数の HTTP メッセージを並列的に処理できるということである。
この概念を、ストリームという。ストリームは概念であり、実体はない。TCP 接続のなかにあるひとつひとつの HTTP メッセージをストリームと読んでいるに過ぎない。

各フレームは、自分がどのストリームに所属するのかを示す情報を持っている。そのため、フレームを受け取ったクライアントやサーバが、ストリーム毎にフレームを組み立てて、HTTP メッセージを復元することができる。
この仕組みによって、ひとつの TCP 接続のなかで、あたかも複数の TCP 接続が生まれているかのような状況になる。

実際 HTTP/2 は、ストリーム単位でのフロー制御を行っている。これはまさに TCP におけるフロー制御と同じメカニズムである。
フロー制御とは、一度に送信するデータの量について送信側と受信側で調整を行っていくプロセスで、輻輳制御などのために行われる。
つまり HTTP/2 の通信では、ストリームと TCP の 2 つのレベルでフロー制御していることになる。
HTTP/2 におけるフロー制御については、以下の記事が分かりやすかった。

qiita.com

パフォーマンスの向上

ストリームによって、パフォーマンスの向上が期待できる。
具体的に言うと、同一オリジンに対してはひとつの TCP 接続しか発生しないので、オーバーヘッドを削減できる可能性がある。
HTTP/1.1 では同一オリジンへのアクセスでも複数の TCP 接続が発生する可能性があり、その場合はその度に TCP ハンドシェイクが行われる。TLS 通信なら、さらに TLS のハンドシェイクも行われる。
HTTP/2 なら、これらのハンドシェイクはオリジン毎に一度で済む。

実際にサーバを書いて確認してみる。
まずはalpnProtocolsをコメントアウトして、HTTP/1.1 での挙動を調べる。

const ORIGIN = "https://localhost.numb86.net:8443";

const html = `
<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8">
  <title>HTTP/2</title>
</head>
<body>
  <img src="/deno1.jpeg" width="200">
  <img src="/deno2.jpeg" width="200">
  <img src="/deno3.jpeg" width="200">
  <img src="/deno4.jpeg" width="200">
  <img src="/deno5.jpeg" width="200">
  <img src="/deno6.jpeg" width="200">
  <br>
  <img src="/deno7.jpeg" importance="low" width="200">
  <img src="/deno8.jpeg" importance="low" width="200">
  <img src="/deno9.jpeg" importance="low" width="200">
</body>
</html>
`;

const listener = Deno.listenTls({
  port: 8443,
  certFile: "./cert.pem",
  keyFile: "./privkey.pem",
  // alpnProtocols: ["h2", "http/1.1"],
});

for await (const conn of listener) {
  console.log(conn.rid, conn.remoteAddr); // このログを結果を調べる
  handleConn(conn);
}

function getPath(url: string): string {
  return url.slice(ORIGIN.length);
}
async function handleConn(conn: Deno.Conn) {
  const httpConn = Deno.serveHttp(conn);
  for await (const { request, respondWith } of httpConn) {
    const path =
      request.url.indexOf("http") === 0 ? getPath(request.url) : request.url;

    switch (true) {
      case /^\/$/.test(path): {
        respondWith(
          new Response(html, {
            status: 200,
            headers: { "Content-Type": "text/html" },
          })
        );
        break;
      }

      case /\.jpeg$/.test(path): {
        const number = Number(path.slice(5, -5));
        const resource = number <= 6 ? "./deno1.jpeg" : "./deno2.jpeg";
        const data = await Deno.readFile(resource);
        respondWith(
          new Response(data, {
            status: 200,
            headers: { "Content-Type": "image/jpeg" },
          })
        );
        break;
      }

      default: {
        respondWith(
          new Response("Not Found\n", {
            status: 404,
            headers: { "Content-Type": "text/plain" },
          })
        );
        break;
      }
    }
  }
}

deno1.jpegとdeno2.jpegという名前で適当な画像を用意した上で、ブラウザでhttps://localhost.numb86.net:8443/にアクセスする。
そうすると以下のログが流れ、複数の TCP 接続が行われていることが分かる。

4 { transport: "tcp", hostname: "127.0.0.1", port: 62489 }
9 { transport: "tcp", hostname: "127.0.0.1", port: 62494 }
13 { transport: "tcp", hostname: "127.0.0.1", port: 62495 }
17 { transport: "tcp", hostname: "127.0.0.1", port: 62496 }
19 { transport: "tcp", hostname: "127.0.0.1", port: 62497 }
25 { transport: "tcp", hostname: "127.0.0.1", port: 62498 }

次にalpnProtocolsをアンコメントして、HTTP/2 で通信を行ってみる。

すると今度は、TCP 接続はひとつしか存在しない。

4 { transport: "tcp", hostname: "127.0.0.1", port: 63630 }

さらに、HTTP メッセージを並列的に処理できるという特徴により、「処理の重いレスポンスのせいで後続のリクエストをいつまでも送信できない」という問題を回避できるようになる。

HTTP/1.1 ではひとつの TCP で同時にやり取りできるのは、ひとつの HTTP メッセージだけである。
そのため、ひとつのオリジンに対してひとつの TCP 接続しか行えないとすると、同一オリジンから複数のリソースを取得したい場合に相当な時間がかかることになる。ひとつひとつ逐次処理していくことになる。
そのためブラウザは、ひとつのオリジンに対して複数の TCP 接続を行うことで、並列的なやり取りを可能にしている。

しかし TCP 接続を増やし続けることには、コストがある。サーバとクライアント、それからネットワーク経路上の中間機器のCPU やメモリを、消費することになる。
しかも先程も書いたように、TCP 接続を増やせば増やすほどオーバーヘッドが増える。
そのため主要なブラウザは、TCP の同時接続数を 6 つまでに制限している。
これは、7 つ以上のリソースを同一オリジンから同時に取得する場合、後続のリソースの取得については待機状態が発生することを意味する。
HTTP/2 ではひとつの TCP 接続のなかでほぼ無制限に並列的に処理できるので、待機状態は発生しない。

先程のコードでこのことを確認できる。
今度はサーバのログではなく、ブラウザの挙動を確認する。

なお、素材は以下のページのものを使っている。
Artwork | Deno

まずは HTTP/1.1。
同時に 6 つの画像までしか、ダウンロードできない。

f:id:numb_86:20210417110021g:plain

続いて HTTP/2。
全ての画像を並列してダウンロードできていることが分かる。

f:id:numb_86:20210417110119g:plain

現代のウェブページやウェブアプリケーションは、画像やスクリプトファイルなど、多数のリソースによって構成されている。
巨大なひとつのリソースをダウンロードするのではなく、それほど大きくはないリソースを多数ダウンロードする、という傾向が強い。
そのため、余計なハンドシェイクを減らし、複数のリソースを並列的にダウンロードできる HTTP/2 を利用することで、パフォーマンスを大きく改善できる可能性がある。

ストリームの優先順位

全てのストリームを平等に並列処理するのではなく、特定のストリームを優先的に処理して速くレスポンスを返して欲しいケースもある。
例えばスタイルシートや JavaScript ファイルはブラウザの描画処理に影響を与えるので、早めに取得しておきたい。逆に、後回しにしても影響が少ないリソースもあるかもしれない。
HTTP/2 には、各ストリームに優先度を設定するため仕組みが用意されている。
これを使うことで、優先的にレスポンスを返して欲しいストリームを、サーバに伝えることができる。

優先順位の設定については以下の記事が分かりやすかった。

qiita.com

HTTP/2 が提供しているのは優先順位を伝えるための仕組みだけで、優先順位を決定するロジック等は定義されていない。
どのように優先順位を決めるのかは、実装によって異なる。
実際には、ブラウザが自動的に決めることになる。<img src="img/1.png" importance="high">のようにアプリケーションの開発者が指定できるようなのだが、それも参考にしつつ、最終的にはブラウザが決定する。
そしてサーバも、その優先順位に必ず従わなければならないわけではない。そのため、目安くらいに考えておいたほうがよいのかもしれない。

ドメインシャーディングはアンチパターンになる

前述の通り、HTTP/1.1 ではひとつのオリジンに対して 6 つしか TCP を同時接続できない。
この制限に対処するために、様々な工夫が用いられてきた。
例えば、CSS スプライトなどを使って複数のリソースをひとつのファイルにまとめることで、HTTP リクエストの数を減らすことができる。

他にも、ドメインシャーディングというテクニックが使われていた。
これは、意図的に複数のドメインからリソースを配信することで、TCP の接続数の制限を回避する手法。
ドメインが異なるということはオリジンが異なるということなので、6 つ以上の同時接続を実現できる。
例えばexample.comとsub.example.comの 2 つのドメインからリソースを配信することで、合計で 12 個まで TCP を同時接続できるようになる。

だがこのドメインシャーディングは、HTTP/2 を利用できる環境においては不要になる。
既述したように、HTTP/2 ではひとつの TCP 接続のなかで並列的に HTTP メッセージを送受信できる。わざわざドメインを分けて配信する必要はない。
むしろドメインを分けることで、せっかくひとつの TCP 接続で済んでいたものが、example.comとsub.example.comのふたつの TCP 接続に増えてしまう。
こうするとオーバーヘッドが増えてしまう。手間を掛けて HTTP/2 のメリットを捨てていることになる。

このように、HTTP/2 の恩恵を最大限に引き出すためには、HTTP/2 の仕組みや原理をしっかり理解しておく必要がある。
そうしないと、間違ったテクニックや効果のないテクニックを使い続けることになってしまう。
これはどのような技術やプロトコルにも言える。利便性の高いインターフェイスのおかげで簡単に使えるとしても、互換性のおかげで違いを意識しないで済んだとしても、その中身や背景について詳しく理解していればしているほど、性能を引き出せるようになる。

HTTP ヘッダの圧縮

ウェブの用途が広がり、HTTP が高機能になるにつれ、HTTP ヘッダは肥大化していった。特に Cookie などの情報を持っている場合、サイズはかなり大きくなる。
しかも HTTP はステートレスな通信なので、ヘッダは毎回送信される。
このため、大きなオーバーヘッドが発生しやすい。
HTTP/2 ではHPACKという形式で HTTP ヘッダを圧縮することで、このオーバーヘッドの削減を図っている。

参考資料

2021-04-13

『コンピュータシステムの理論と実装』を読んだ

読書

「コンピュータが動いている仕組みを知りたい？　だったら実際に作ってみるのが一番！」というわけで実際にコンピュータを作っていく、他に類を見ない一冊。
単純な電子回路から始まってアプリケーションソフトウェアの開発まで行うので、各論よりもまずは全体像を掴みたい、各モジュールがどのように連携してひとつのシステムとして動いているのかを知りたい、という人に特にお勧めできる。
どのモジュールにおいても詳細には立ち入らないので、低レイヤの入門としてもよいかもしれない。

www.oreilly.co.jp

Twitter でお勧めされてよさそうだったので、読み始めた。
存在は知っていたが敷居が高そうで敬遠していたのだが、そうでもないとのことだったので。

自分ももっと低レイヤのこと知りたくてやってるのですが、この本おすすめです。https://t.co/8yk4hdWCkI
— ほげぴよ (@sannennemutarou) 2021年2月18日

twitter.com

僕もウェブ系なのですが低レイヤに興味でてやり始めました。レベル感は普段プログラム書いてる人なら構えなくても大丈夫なくらいに思います。範囲は広いですが、1章ごとに独立してるので興味あるところだけやるのも勉強になると思いますよ。
— ほげぴよ (@sannennemutarou) 2021年2月18日

twitter.com

結果として、読んでよかった。自分が知りたかったことを知れた。

コンピュータがどのように動いているのか、プログラムはどのように実行されるのか、ということについて何となくだがイメージできるようになった。
これまでは、コンピュータシステムがひとつの巨大なブラックボックスになっていて、その中で何が行われているのか、全く分かっていなかった。断片的な知識はあるのだが、それがつながっていない。「0と1だけで全ての情報を表現する」みたいな話は知っていたが、それがどうして「コンピュータ」になるのか分からなかった。0と1を扱う単純な回路がコンピュータになってしまうことには違和感を感じるというか、唐突なジャンプがあるように思えた。「単純な回路」と「コンピュータ」が同一線上にはなくて、魔法のように感じてしまっていた。
本書を読んで、魔法などなく、ちゃんと地続きの話なんだと感じることができた。

プリミティブな機械をほとんど魔法のように仕立て上げる仕組み

という表現が本書に出てくるが（250ページ）、まさに人間の努力によって魔法のようになっているだけで、元を辿れば単純な機械なのだ。

ブラックボックスは解体され、もう少し細かい粒度で「コンピュータシステム」を捉えられるようになった。
ブラックボックスを開けて、その中がどのような部品で構成されているのか、何となくはイメージできるようになった。
まだ曖昧な理解の部分は多いし、各部品の中身についても理解が浅いのだが、部品同士の関係性、それぞれの部品の役割、全体の処理の流れといったものを多少なりとも理解できるようになったのは大きい。
そういう状態になりたくて本書を読もうと思ったわけだから、よかった。

とにかく全体像を知りたかった。その分野の全体を貫くような原理や概念、分野全体がどういう構成や構造になっているのかを示す見取り図、そういったものがあると学習効率が大幅に向上するから。
個々の部品の詳細ではなく、それらの部品の組み合わせによって作られる全体を、まずは理解する。そうすることで、それぞれの部品が何のために存在するのか、どういう役割を期待されているのか、他の部品とどのように連携しているのか、といったことが分かってくる。そうすると、部品自体を勉強するときの効率がよくなる。資料に書かれている文章の文脈や行間を読み取れる可能性が高まり、理解が捗る。
新しい部品が出てきたときのキャッチアップも、やりやすくなる。それが何のための部品なのか、全体の構造のうちのどの部分にあたるものなのか、といったことが分かるから。そうすると議論の要点を把握しやすいし、その部品が（既存の部品と比較して）どんな特徴を持っているのか、何を解決しようとしているのか、理解しやすくなる。

全体像の把握は、課題解決のスピード向上にもつながると思う。
何か解決したいことがあった際に、大体どんなことをすればいいのか、大まかなあたりを付けることができる。しかも高い精度で。解決のための具体的な知識を持っていなかったとしても、どういう風にアプローチすればいいのか、どの角度から攻めればいいのか、推察できる。だから、何を調べればいいのかが分かる。
逆に全体像を理解していない場合、取っ掛かりを掴めなかったり、見当違いのことをしたりして、遠回りすることになる。
この記事に出てくる「jQuery から DB を操作する方法とかを調べることになります」という例が分かりやすくて好きなのだが、なぜそういうことになってしまうのかというと、記事にあるように、クライアントサーバモデルというウェブサービスの全体像に関する知識が不足しているから。
ある程度経験のあるウェブプログラマからすれば笑い話かもしれない。しかし自分は、これと同じような過ちを多発してしまっているのではないかという疑念を抱いている。コンピュータシステムを理解していないことで。だから、細部の詳細はともかく、基本的な仕組みや考え方は理解したいという気持ちがあった。
それが分かれば、演繹的に考えることができるようになる。さっきの例で言えば、クライアントサーバモデルという考え方を理解していれば、そして jQuery はクライアントで UI を作るためのライブラリであるということを理解していれば、jQuery で DB を操作することはできない、ということが論理的に導き出せる。逆に仕組みや原理を理解せずに機械的に「jQuery では DB を動かすことはできない」ということだけを覚えてしまうと、「じゃあ React は？　Vue では動かせるの？」ということをいちいち調べることになってしまう。

この「全体と部品」という構造は再帰的なものであり、部品だと思っていたものも、それ自体がひとつの全体であり、その中にはそれを構成する様々な部品がある。そして全体として捉えていたものも、レイヤーや粒度を変えれば別の「全体」を構成する部品であったりする。

本書は、それ以上は複数の部品に分解できないような、プリミティブな要素からスタートする。
具体的には、単純な電子回路からスタートする。それを構成する部品やさらにその部品としてトランジスタや半導体、シリコン、といったものがあるが、それらの話題は物理学の領域になってくるので本書では扱わない。電子回路を最小要素として、そこから話を進めていく。

まずは回路同士を組み合わせて複雑な回路を作り、さらにそれを組み合わせて、単純な計算や保存を行えるいくつかの装置を作る。そして装置を組み合わせて、コンピュータアーキテクチャを完成させる。ソフトウェアも同様に拡張を繰り返していき、単純なシステムを部品として、より大きくより複雑な全体を作っていく。
そして最終的には、「高水準言語で書かれたアプリケーションを動かせるコンピュータシステム」という全体像に到達する。

そして本書は、各章が、部品（モジュール）単位で分かれている。
ある章で部品を完成させたら、その次の章でその部品を土台にしてより複雑な部品を作る、という形で進んでいく。
そのため章毎の独立性が高く、興味のある章から読むということが可能になる。
そして目次を見ると分かるが、どの章も同じ構成になっていて話の流れに一貫性があり、読みやすい。

実際に手を動かすというが本書の特徴で、そのためのツールやテストスクリプトもネット上で無料で取得できる。
特に素晴らしいのはテストスクリプトで、このおかげで自分が何を作るべきかが明確になるし、正しく作れているのかを客観的に判定できる。
ただ、全てを実装しようとするとかなり時間が掛かるはずなので、無理してやる必要はないと思う。ただ本書を読むだけでも、かなり勉強になる。自分も一部しかやっていない。

注意点としては、本書の内容はかなり端折られたものであるということ。
全体像を示すのが目的なのだから当然だとは思うし、細部に立ち入りすぎても仕方ないから、不満というわけではない。
だが特に OS は、現実のそれとはかなり異なるので注意が必要。
本書で OS として作られるものは、「OS が果たしている役割を実装したライブラリ」である。アプリケーションを書く際にハードウェアを意識しないで済むよう、ハードウェアが絡むような処理を予め実装してライブラリとして切り出しておいた、という話である。
そのため、マルチタスクは対応しておらず、コンパイルしたアプリケーションをハードウェアで直接実行する形になっている。

もうひとつの注意点は、難解とまでは言わないが、決して初心者向けではないこと。
多少なりとも低レイヤの用語に触れたことがないと、なかなか厳しいと思う。
図や表が豊富であり、最初に受ける印象よりは簡単ではあるが、初心者向けというわけではない。
自分の場合、より丁寧に記述してある『痛快！コンピュータ学』と『基礎からわかるTCP/IP ネットワークコンピューティング入門　第3版』の第 3 章を副読本として使った。本書と補い合うような内容であり、理解が深まった。

books.shueisha.co.jp

www.ohmsha.co.jp

以下は、本書の内容を、副読本の内容も交えながら整理したもの。

ハードウェアとバイナリコード

値の計算

コンピュータは0と1の組み合わせによって情報を表現し、処理を行う。

ブール代数という理論が、これを支えている。
ブール代数では、ブール値と呼ばれる 2 種類の値を対象に演算を行う。ブール値は0と1でもいいし、trueとfalseでもいいし、onとoffでもいい。本書では0と1を用いている。
そして、ブール値に対して演算を行うための関数をブール関数と呼ぶ。
ブール関数はブール値を受け取りブール値を返すが、有名なのはAND、OR、NOTだろう。例えばANDはブール値を 2 つ受け取り、両方とも1なら1を出力し、それ以外のケースでは0を出力する。
ブール関数はいくつかの種類があるが、AND、OR、NOTの 3 つの組み合わせによって、他の全てのブール関数を表現できることが分かっている。

ブール関数を実装した物理的なデバイスのことを、ゲートと呼ぶ。
ブール関数を実現していればその仕組みは何でも構わないのだが、現代では、トランジスタを使って実装されることが多い。
トランジスタで作られたゲートを回路と呼ぶ。

本書では、NAND回路だけを使える状態で開発がスタートする。
NANDとはNOT ANDのことであり、ANDとは逆の結果を返す。そして、NANDさえあればAND、OR、NOTの 3 つを作れる。
そのため、NANDの組み合わせだけで、全てのブール関数の回路を実装できることになる。

さらに、複数の回路を組み合わせることで、多ビットや多入出力を扱える回路を作れる。
多ビットとは複数の桁を持ったブール値であり、例えば 4 ビットなら0010のような 4 桁の値を扱える。これはつまり、2 進数を表現できるということである。

ここまでに作ってきた回路を組み合わせ、そして符号付き整数の表現方法として「2 の補数」という方式を使うことで、正と負のどちらの加算も行えるようになる。

値の保存

これでブール演算と算術演算の両方を行えるようになり、値の計算ができるようになった。
だが値の計算をできるだけでは、コンピュータは作れない。値の保存も、できるようになる必要がある。

値の保存は、フリップフロップという回路とクロックという仕組みによって、実現できる。
フリップフロップもNAND回路から作り上げることができるのだが、本書では詳しく触れられていない。
フリップフロップの基本的な仕組みの説明は以下のページが分かりやすかった。

tsumori-tech.com

sagara-works.jp

フリップフロップによって、「前回の値」という概念を回路に持ち込むことができるようになった。

コンピュータにおいて「時間」という概念を表現するために使われるのが、クロック。
コンピュータのなかでは、常に信号が流れている。この信号がクロックであり、クロックの値は周期的に0と1を行き来している。この値が変化すると、時間の単位がひとつ進んだことになる。
この仕組みによって時間を表現することができる。

さらに、クロックの値が切り替わった瞬間を基準とすることで、全ての回路を同期させることができる。
ある回路が出力した結果が別の回路に届き、受け取った回路が処理を終えるまでには、ある程度の時間がかかる。そうすると回路と回路の整合性が問題になる。ある回路は最新の値を受け取っているが別の回路はまだ受け取っていない、ということになる。
クロックの値の変化を時間の単位とすることで、クロックの値が切り替わるまでに全ての回路に最新の値が行き渡り処理が終わっていれば、同期が取れていることになる。

本書では、クロックを実現している仕組みについては、特に触れられていない。NAND回路のように、所与のものとして与えられている。

これで、0もしくは1を、格納したり取り出したりすることができる回路を作れた。これをレジスタと呼ぶ。
そしてレジスタを並べることで、多ビットに対応したレジスタを作るができる。
さらにレジスタを積み重ねることで、複数の値を保存できるようになる。これがメモリである。
各レジスタにユニークな番号を振っていくことで、レジスタを一意に特定できるようになる。この番号をアドレスと呼ぶ。

ここまででコンピュータを作るための部品が揃ったので、あとはこれを組み合わせていく。

バイナリコードでコンピュータに指示を出す

ハードウェアをどのようなアーキテクチャにするのかについて、細かい決まりはない。
だがプログラム内蔵方式については、現代のコンピュータのほとんどが採用している。
これは、コンピュータに何をさせるかという情報をメモリに書き込み、コンピュータはメモリからそれを読み取って処理を行っていくという方式。
これによって、同じハードウェアでも異なる処理をさせることができる。
この特徴が、コンピュータをコンピュータ足らしめている。コンピュータが、単なる計算機ではなく、汎用性や柔軟性を持つ機械になった。

コンピュータは0と1しか扱えない。どんなに複雑な構造になっても、単純な回路の組み合わせに過ぎない。
そのため、ブール値を入力として受け取り、所定の処理を行ってブール値を出力する、という仕組みは変わらない。
コンピュータは、ブール値しか扱えない。

そのため、コンピュータに対する指示も、0と1の組み合わせで表現するしかない。
これを、バイナリコードと呼ぶ。
特定のアドレスXにバイナリコードを格納しておくと、コンピュータはそれを読み取り、その指示に従って処理を行う。
処理が終わるとコンピュータはアドレスX + 1に格納されているバイナリコードを読み取って、処理を行う。それが繰り返されていく。
一行のバイナリコードがひとつのアドレスに対応しているため、上記の処理の流れは、バイナリコードを一行ずつ読んでいるということになる。

コンピュータに対する指示といっても、抽象的な指示はできない。
ここまで見てきたようにコンピュータはかなり単純な仕組みなので、指示の内容も単純なものになる。
指定されたアドレスに保存されている値を読み取ったり、その値に対して算術演算やブール演算を行ってその結果を別のアドレスに格納したり、といった形になる。

バイナリコードの法則や規則などの仕様は、設計者が自由に決めていい。
但し、ハードウェアのアーキテクチャには、依存することになる。
本書のハードウェアアーキテクチャはHackと名付けられているが、Hackを動かすためのバイナリコードは、Hackの設計を前提としたものになる。
例えば、Hackのメモリで使われているレジスタは、16 ビットである。そのため、ひとつひとつのバイナリコードの長さは、必然的に 16 ビットになる。16 ビットに収めないといけない。収められないような命令は、2 つの命令に分割することになる。
そしてHackは、メモリのアドレスを 15 ビットで表現する。そのため、「AとBというふたつのアドレスを指定し、Aに格納されている値に1を加算して、その結果をBに格納する」という命令は、絶対にひとつの、つまり 16 ビットのバイナリコードでは表現できない。ひとつのアドレスを指定するだけで 15 ビットを使ってしまうのだから。
このように、バイナリコードを自由に定義できるとはいえ、ハードウェアの制約は受けることになる。先程例示したような命令をひとつのバイナリコードで表現したいのなら、それが可能になるようなハードウェアにしておく必要がある。

Hackには周辺機器としてスクリーンとキーボードが与えられるが、これらの機器とのやり取りはメモリをインターフェイスにして行われる。
スクリーンの場合、ピクセル毎に、対応するメモリアドレスを割り当てる。例えば左上隅のピクセルのアドレスが801であるなら、801に0を格納すると白を、1を格納すると黒を、そのピクセルは表示する。これを全てのピクセルに対して行うことで、図形や文字を描画できる。
キーボードの場合も同様に、対応するメモリアドレスを予め決めておき、どのキーを押したかを表す情報をそのアドレスに書き込めばよい。そうすればコンピュータは、どのキーを押下されたのかを判断できる。

ハードウェアの説明は以上である。
ここまで見てきたように、コンピュータは0と1を対象にした計算しかできない。
プログラム内蔵方式によって処理の内容を変えられるとはいえ、そもそも実行可能な処理に限りがある。
にも関わらず、コンピュータが多種多様な用途で使えるのは何故なのか。

クロード・シャノンという人物の理論によるところが大きい。シャノンは、あらゆる情報は符号化によって0と1で表現できることを明らかにした。
先程の周辺機器とのやり取りもまさに、符号化によって行われている。キーボードの場合であれば、Aは1、Bは2、shiftは90といった具合に、各キーに対してユニークな番号を割り振っていく。そしてその番号を 2 進数に変換すれば、全てのキーを0と1だけで表現できる。
そして、あらゆる情報を0と1で表現できるということは、あらゆる情報をひとつの仕組み、ひとつの道具で扱えるということを意味する。画像だろうが音声だろうが文字列だろうが、同列に扱える。
そしてコンピュータはまさに0と1の扱いに長けており、0と1で表現された情報を扱うのに適していた。
つまり、コンピュータが質的な進化をして複雑な現実も扱えるようになったというより、複雑な現実を0と1で表現できるというシャノンの発見や理論によって、現実をコンピュータで扱えるようになったと言える。

ソフトウェア

Hackアーキテクチャでは、コンピュータへの命令を格納するメモリとデータを格納するメモリは分かれており、命令を格納するメモリは読み込み専用になっている。
そのため、命令を随時書き換えることはできず、予め命令が書き込まれたメモリを使う。違う命令を実行させたいときは、メモリを差し替えることになる。

このような仕組みであるため、ソフトウェアの開発はHack上では行われず、他のコンピュータで作成したバイナリコードをメモリに書き込み、それをHackに読み込ませる形になる。
このとき、開発者がバイナリコードそのものを書いても問題はないのだが、バイナリコードは0と1の羅列であり、これを人間が書くのは現実的ではない。
そのため、もっと抽象度の高い形でコンピュータへの命令を表現し、それをバイナリコードに変換することが一般的になっている。

本書ではハードウェアの構築は 5 章で終わり、それ以降は、バイナリコードの抽象化を推し進めていくことになる。
抽象化はレイヤー構造になっており、複数の段階を経て、バイナリコードに変換される。
最も抽象度が高いのがJavaやCのような高水準言語であり（本書ではJackという高水準言語を定義して用いる）、本書では「高水準言語 -> VM（バーチャルマシン）言語 -> アセンブリ -> バイナリコード」という順番で変換が行われる。
これはあくまでも一例であり、例えば、VM を使わない高水準言語もある。また、記述された命令全体を一括で変換する言語もあれば、一行ずつ逐次変換しながら実行していく言語もある。
何にせよ重要なのは、人間によって扱いやすい言語で記述し、それを最終的にバイナリコードへと変換することである。この仕組みによって、コンピュータへの命令を比較的簡単に記述できるようになっている。

もうひとつ、ソフトウェア開発の生産性向上において重要なのが、ハードウェアの抽象化である。
今のままでは、全てのソフトウェア開発者が、ハードウェアの仕様を理解する必要がある。
スクリーンに何かを描画しようと思ったら、スクリーンの仕様について理解し、対応するメモリアドレスはどこなのかを把握し、そのアドレスに対して適切な書き込みを行わないといけない。
これを全ての開発者が行わなければならないのは非効率だし、ハードルが高い。
ハードウェアの操作を行う処理を予め記述しておき、アプリケーションはただそれを呼び出せばよいという状態にしておけば、アプリケーションの開発は飛躍的に楽になる。
ハードウェアの操作について予め記述しておき、アプリケーションがそれを意識しないで済むようにすることが、OS の役割のひとつである。
本書で OS として作るものは擬似的なそれであり、実態はただのライブラリである。そのライブラリを利用したアプリケーションを変換すると、単一のバイナリコードになる。
実際の OS はアプリケーションとは別の独立したソフトウェアである。アプリケーションがハードウェアの機能を利用する際は OS にその仕事を依頼し（システムコール）、OS がアプリケーションの代わりにハードウェアの操作を行う。

30歳からのプログラミング

30歳無職から独学でプログラミングを開始した人間の記録。