GPTのステータスがやっと明確になりました！

$マイクロソフト (MSFT.US)$今日からアンドレイ・カルパシ氏のプレゼンテーションを観ながらTwitterのノートを取って、一緒に楽しみましょう。
アンドレイ・カルパシ氏はステージから始めます：
1 - プレトレーニング - 数ヶ月x何千ものGPU
2、3、4 - 数時間または数日かかるファインチューニングステージ

プレトレーニング開始前には、2つの準備ステップがあります。
データ収集 - 異なるソースから大量のデータを取得します（ここではAndrej LLaMaの混合）。
トークナイズ - 語句を整数に変換する、損失のない変換。

「モデルに含まれるパラメータの数だけで、モデルのパワーを判断するべきではありません」
LLaMaは1兆-1.4兆トークンに対して、GPT-3は300Bトークンに対してトレーニングされました。

「残念ながらトランスフォーマーの仕組みについて詳しく説明する時間がありません」アンドレイ氏が教育に情熱を持っていることが大好きです！
正直に言って、これをツイートにまとめることはできません。

こちらはニューヨーク・タイムズの例で、シェイクスピアに基づいたGPTモデルを訓練しました。
多くの反復を経てLMがシェイクスピアテキストの次にどの単語が来るかをより正確に予測するようになっていることがわかります。

率直に言って、ここでは大幅に言い換えますが、各反復で、トレーニングモデルは次のトークン/整数が緑のトークンの次に来るかを予測しようとします。このトレーニング曲線で予測がどの程度元のテキストと一致するかが明らかに示されています。

GPT-2以降、業種では、プロンプトを特定の方法で構成し、いくつかの例（Few Shot prompting）を提供すると、ベースモデルはプロンプトで提供された指示を自動完了するように"騙される"ことがわかりました。

Andresさんはこれを何度も繰り返し、現在はLLaMaを使用するのが最善であるとされている最高のオープンソースモデルは、AIです（OAIはGPT-4について何もリリースしていません）。
$メタ・プラットフォームズ (META.US)$GPT-2-リリース+重み
GPT-3- APIを介してベースモデルが利用可能（da-vinci）
GPT-4- APIを介して利用可能ではない
ベースモデルは助手ではなく、基本的な意味であなたが求めることはできません。ただの自動完了テキストです。

でも少しの Few-shot プロンプトを使ってドキュメントの構造を構成すると、ベースモデルは人工知能と人間の間のチャットとして自動完了するように"騙され"るようになります。
しかし、このトリックだけでは不十分です。ですから、ステップ2に移ります。

教師付きのファインチューニングです。
指示の小規模だが高品質な（人間の請負業者を思い浮かべてください）データセットを収集し、交換用のデータセットでモデルのトレーニングを継続します。そうすることで、SFT（教師付きファインチューニング）モデルを得ることができます。
SFTモデルは...まだグッと言えるレベルではなく、決してchatgptの品質ではありません。ですから、トレーニングは続きます。
SFTモデルの質問と回答を生成し、ユーザーが3つのバージョンを比較して最高のものをランク付けし、モデルがユーザーによって選択された選択肢で再トレーニングされるようになっています。

これは、より優れた投票された応答を重んじることで実現されます。たとえば、あなたが打つと
3つのバージョンを生成し、ユーザーがそれらを比較してランク付けして、モデルに選択肢をトレーニングさせるように求めます。

、それらを比較してランク付けし、選択肢をモデルにトレーニングさせます。または chatgpt関連では、応答を再生成することができますが、それらの信号はRLHFにとって非常に良いです。

Andrejは、RLHFモデルが私たちにとって"感じ"が良い理由について説明しています。少なくとも、良いアシスタントである点に関しては。
もしこのまま読み続ける方がいらっしゃったら、私はこのビデオを紹介します。

興味深いことに、AndrejはRLHFについて、ベースモデルよりも改良されているわけではないと話しています。RLHFモデルはエントロピーが少ないため、より"発明的"になる可能性があります。
そのため、基本モデルの方がまだ優れているため、それらはまだ混沌としています。

これは、ランキングに基づいてバークレー大学の人々によってランク付けされたモデルの現在の状態です。
興味深いことに、karpathyはGPT-4が遥かに最高であると言っていますが、表では、Claudeの1224 ELOレーティングに対して1274であり、「遥かに」とは思えません。

RLHFモデルはより優れており、上位3つ全てがRLHFモデルで、残り（彼の知る限り）はSFTモデルです。
やったね！講義の前半が終わりました。これらのモデルの問題へのアプリケーションに移ります。

そして、Andejは、人間がステートメントを書くプロセスとの違いについてかなり深く掘り下げています。
"カリフォルニアの人口は、アラスカの53倍です"
人間の脳は、ループ処理、事実チェック、計算、反省を経ています。

一方、GPTはオートコンプリートをしようとしていますが、内部的には対話はありません。
トークンごとに、数字を見つける必要があるか、確認する必要があるファクトであるかに関係なく、同じ"コンピュート"を費やしていますが、彼らは広範な知識と完璧な記憶（コンテキストウィンドウ）を持っています。

一連の考えのような方法は、ステップバイステップで考えて"より多くのトークン"、"より多くの考える時間"を提供することによって、モデルに提供されます。
これにより、モデルは自分の作業を示し、より良い答えを得るために"考える時間"を与えられます。

今、Andrejは自己反省を方法の1つとして説明しています。
モデルは既にサンプリングしたトークンをキャンセルする方法がないため、"引っかかって"しまうことがあります。
間違った単語を言って途中で止めて、「言い換えよう」と言う場合を想像してみてください。

モデルにはそのような贅沢はないため、間違った道へと進むことがあります...
ただし、セルフリフレクションのような例では、モデルに出力内容をレビューし、それを評価するよう求めることによって、モデルには出力の推論をもう一度行う「セカンドチャンス」が与えられ、結果が改善されます！

アンドレイは、システム1とシステム2の思考モデルを用いたThinking Fast and SlowをLLMsに使用することが大好きです。
CoT、セルフリフレクション、そして最近リリースされたTree of thoughtのようなこれらの技術は、よりゆっくりと、より慎重な考えをするシステム2を構築する試みです。

類推。