出典: 量子ビット
意外なことに、今でも ChatGPT は低レベルの間違いを犯すのでしょうか?
God Wu Enda は最新の授業で次のように指摘しました。
ChatGPT は単語を反転させません!
たとえば、lollipop という単語を逆にすると、出力は pilollol となり、完全に混乱を招きます。
ああ、これは確かにちょっと目を見張るものがあります。
そのため、クラスに参加したネチズンが Reddit に投稿すると、すぐに多くの見物人が集まり、投稿の人気は 6,000 に達しました。
これは偶然のバグではなく、ChatGPT が実際にこのタスクを完了できないことがネチズンによってわかり、私たちの個人的なテストの結果も同じでした。
△ ChatGPT(GPT-3.5)の測定値
Bard、Bing、Wenxin Yiyan などの製品もあまりありません。
△ 測定吟遊詩人
△言葉の心と心を試す
これをフォローして、ChatGPT がこれらの単純な 単語タスクを処理するのがひどいと苦情を言う人もいます。
たとえば、以前は人気のあった単語ゲームである Wordle をプレイするのは大失敗であり、決して正しく行われませんでした。
え?なぜ?
この現象の原因は トークン にあります。トークンはテキスト内の最も一般的な文字シーケンスであり、大規模なモデルはトークンを使用してテキストを処理します。
単語全体または単語の断片を指定できます。大規模なモデルは、これらのトークン間の統計的関係を理解し、次のトークンの生成に優れています。
そのため、単語の反転という小さなタスクを扱うときは、文字ではなく各トークンを反転するだけかもしれません。
これは中国語の文脈ではさらに明らかです。単語はトークンであるか、単語はトークンです。
冒頭の例では、誰かが ChatGPT の推論プロセスを理解しようとしました。
より直感的に理解できるように、OpenAI は GPT-3 トークナイザー もリリースしました。
たとえば、lollipop という単語の場合、GPT-3 はそれを I、oll、ipop の 3 つの部分に分解します。
経験の結論によれば、そのような不文律が生まれました。
単語の分割方法も言語によって異なります。以前の統計によると、中国語で使用されるトークンの数は英語の 1.2 ~ 2.7 倍です。
トークンと文字 (トークンと単語) の比率が高くなるほど、処理コストが高くなります。 そのため、中国語のトークン化の処理は英語よりもコストが高くなります。
トークンは、大きなモデルが人間の現実世界を理解するための手段であることが理解できます。これは非常にシンプルであり、メモリと時間の複雑さも大幅に軽減されます。
ただし、単語のトークン化には問題があり、モデルが意味のある入力表現を学習することが困難になります。最も直感的な表現は、単語の意味を理解できないことです。
当時、Transformers はそれに応じて最適化されており、たとえば、複雑で一般的ではない単語は、意味のあるトークンと独立したトークンに分割されました。
annoyingly が 「迷惑」と「ly」 に分けられるのと同じように、前者は意味を保持し、後者は頻繁に現れます。
これは、人間の言語を非常によく理解できる、今日の ChatGPT やその他の大規模モデル製品の驚くべき効果にも貢献しています。
単語の反転を処理できない などの小さなタスクについては、当然解決策があります。
最も簡単で直接的な方法は、自分で単語を区切ることです~
または、ChatGPT を段階的に実行して、最初に各文字をトークン化することもできます。
あるいは、文字を反転するプログラムを書かせれば、プログラムの結果は正しいものになります。 (犬の頭)
ただし、GPT-4も使用可能であり、実測ではそのような問題はありません。
△ GPT-4の測定結果
つまり、トークンは AI が自然言語を理解するための基礎となります。
AI が人間の自然言語を理解するための橋渡しとして、トークンの重要性がますます明らかになってきています。
これは AI モデルのパフォーマンスの重要な決定要因となっており、大規模モデルの課金基準でもあります。
前述したように、トークンを使用すると、モデルが単語の意味、語順、文法構造などの ** より詳細な ** 意味論的な情報を取得しやすくなります。その順序と位置は、言語モデリング、機械翻訳、テキスト生成などのシーケンス モデリング タスクにおいて重要です。
モデルがシーケンス内の各トークンの位置とコンテキストを正確に理解した場合にのみ、コンテンツをより適切に予測し、適切な出力を提供できます。
したがって、トークンの質と量はモデル効果に直接影響します。
今年に入ってから大型モデルが続々とリリースされるため、トークン数が重視されるようになり、例えばGoogle PaLM 2のエクスポージャ詳細で述べたように、トレーニングには3兆6000億トークンが使用されています。
そして、業界の多くの偉人も、トークンが本当に鍵であると述べています。
今年テスラから OpenAI に転職した AI 科学者のアンドレイ・カルパシー氏はスピーチで次のように述べた。
トークンを増やすと、モデルの思考が向上します。
そして、モデルのパフォーマンスはパラメータの大きさだけによって決まるわけではないことを強調しました。
たとえば、LLaMA のパラメータ スケールは GPT-3 のパラメータ スケールよりもはるかに小さいですが (65B 対 175B)、トレーニングにより多くのトークンを使用するため (1.4T 対 300B)、LLaMA の方が強力です。
また、モデルのパフォーマンスに直接影響を与えるため、トークンは依然として AI モデルの課金標準です。
OpenAI の価格基準を例にとると、1,000 トークン単位で請求され、モデルやトークンの種類によって価格も異なります。
つまり、AI大型モデル分野の門をくぐると、トークンは避けては通れない知識点であることが分かるでしょう。
まあ、それはトークン文学さえ生み出しました...
ただし、中国語の世界でこのトークンを何に翻訳すべきかはまだ完全には決定されていないことに注意してください。
「トークン」の直訳はいつも少し奇妙です。
GPT-4 では「単語要素」または「トークン」と呼ぶのがよいと考えていますが、どう思いますか?
参考リンク: [1] [2] [3]
28.7K 人気度
4.7M 人気度
128.2K 人気度
79.6K 人気度
164.8K 人気度
Wu Enda の ChatGPT クラスが爆発的に爆発: AI は単語を逆から書くのをやめたが、全世界を理解した
出典: 量子ビット
意外なことに、今でも ChatGPT は低レベルの間違いを犯すのでしょうか?
God Wu Enda は最新の授業で次のように指摘しました。
たとえば、lollipop という単語を逆にすると、出力は pilollol となり、完全に混乱を招きます。
そのため、クラスに参加したネチズンが Reddit に投稿すると、すぐに多くの見物人が集まり、投稿の人気は 6,000 に達しました。
Bard、Bing、Wenxin Yiyan などの製品もあまりありません。
これをフォローして、ChatGPT がこれらの単純な 単語タスクを処理するのがひどいと苦情を言う人もいます。
たとえば、以前は人気のあった単語ゲームである Wordle をプレイするのは大失敗であり、決して正しく行われませんでした。
キーはトークンです
この現象の原因は トークン にあります。トークンはテキスト内の最も一般的な文字シーケンスであり、大規模なモデルはトークンを使用してテキストを処理します。
単語全体または単語の断片を指定できます。大規模なモデルは、これらのトークン間の統計的関係を理解し、次のトークンの生成に優れています。
そのため、単語の反転という小さなタスクを扱うときは、文字ではなく各トークンを反転するだけかもしれません。
経験の結論によれば、そのような不文律が生まれました。
単語の分割方法も言語によって異なります。以前の統計によると、中国語で使用されるトークンの数は英語の 1.2 ~ 2.7 倍です。
トークンは、大きなモデルが人間の現実世界を理解するための手段であることが理解できます。これは非常にシンプルであり、メモリと時間の複雑さも大幅に軽減されます。
ただし、単語のトークン化には問題があり、モデルが意味のある入力表現を学習することが困難になります。最も直感的な表現は、単語の意味を理解できないことです。
当時、Transformers はそれに応じて最適化されており、たとえば、複雑で一般的ではない単語は、意味のあるトークンと独立したトークンに分割されました。
annoyingly が 「迷惑」と「ly」 に分けられるのと同じように、前者は意味を保持し、後者は頻繁に現れます。
これは、人間の言語を非常によく理解できる、今日の ChatGPT やその他の大規模モデル製品の驚くべき効果にも貢献しています。
単語の反転を処理できない などの小さなタスクについては、当然解決策があります。
最も簡単で直接的な方法は、自分で単語を区切ることです~
つまり、トークンは AI が自然言語を理解するための基礎となります。
AI が人間の自然言語を理解するための橋渡しとして、トークンの重要性がますます明らかになってきています。
これは AI モデルのパフォーマンスの重要な決定要因となっており、大規模モデルの課金基準でもあります。
トークンの文献もあります
前述したように、トークンを使用すると、モデルが単語の意味、語順、文法構造などの ** より詳細な ** 意味論的な情報を取得しやすくなります。その順序と位置は、言語モデリング、機械翻訳、テキスト生成などのシーケンス モデリング タスクにおいて重要です。
モデルがシーケンス内の各トークンの位置とコンテキストを正確に理解した場合にのみ、コンテンツをより適切に予測し、適切な出力を提供できます。
したがって、トークンの質と量はモデル効果に直接影響します。
今年に入ってから大型モデルが続々とリリースされるため、トークン数が重視されるようになり、例えばGoogle PaLM 2のエクスポージャ詳細で述べたように、トレーニングには3兆6000億トークンが使用されています。
そして、業界の多くの偉人も、トークンが本当に鍵であると述べています。
今年テスラから OpenAI に転職した AI 科学者のアンドレイ・カルパシー氏はスピーチで次のように述べた。
たとえば、LLaMA のパラメータ スケールは GPT-3 のパラメータ スケールよりもはるかに小さいですが (65B 対 175B)、トレーニングにより多くのトークンを使用するため (1.4T 対 300B)、LLaMA の方が強力です。
OpenAI の価格基準を例にとると、1,000 トークン単位で請求され、モデルやトークンの種類によって価格も異なります。
まあ、それはトークン文学さえ生み出しました...
「トークン」の直訳はいつも少し奇妙です。
GPT-4 では「単語要素」または「トークン」と呼ぶのがよいと考えていますが、どう思いますか?