RETRO
- DeepMindの大規模自然言語モデル
- 直接学習データセットそのものを検索することで、より小さなモデルサイズで性能を維持することに成功
- 同じ数のパラメータを持つ標準的な*Transformer:*ベースモデルと比較して大幅な性能向上を実現
- モデル内で本来持つべきパラメータの一部を外部のデータベースにアウトソーシングする
- RETRO では、英語、スペイン語、ドイツ語、フランス語、ロシア語、中国語、スワヒリ 語、ウルドゥー語を含む 10 言語のテキストを含むニュース記事、ウィキペディアのテキス ト、書籍、GitHub のテキストで構成されるデータセットでモデルを学習する。
- RETRO ニ ューラルネットワークには 70 億個のパラメータしかない。そのため、これを約 2 兆のテキ ストパッセージを含むデータベースで補う方法をとっている。
- 検索データベー スのサイズを大きくするにつれて、自然言語モデルの性能が継続的に向上し、少なくとも 2 兆トークンまで確認されており、学習データとしての 2 兆トークンはそのまま外部データ 35 ベースとして使用された。
- データベースはニューラルネットワークを再学習せずに更新することもでき、新しい情報を素早く追加したり、古い情報、誤った情報を削除することも可能。
- データベースとしてWebそのものを再利用する方法としてはOpenAIのWebGPTがある