RETRO

DeepMindの大規模自然言語モデル
直接学習データセットそのものを検索することで、より小さなモデルサイズで性能を維持することに成功
同じ数のパラメータを持つ標準的な*Transformer:*ベースモデルと比較して大幅な性能向上を実現
モデル内で本来持つべきパラメータの一部を外部のデータベースにアウトソーシングする
RETRO では、英語、スペイン語、ドイツ語、フランス語、ロシア語、中国語、スワヒリ語、ウルドゥー語を含む 10 言語のテキストを含むニュース記事、ウィキペディアのテキスト、書籍、GitHub のテキストで構成されるデータセットでモデルを学習する。
RETRO ニューラルネットワークには 70 億個のパラメータしかない。そのため、これを約 2 兆のテキストパッセージを含むデータベースで補う方法をとっている。
検索データベースのサイズを大きくするにつれて、自然言語モデルの性能が継続的に向上し、少なくとも 2 兆トークンまで確認されており、学習データとしての 2 兆トークンはそのまま外部データ 35 ベースとして使用された。
データベースはニューラルネットワークを再学習せずに更新することもでき、新しい情報を素早く追加したり、古い情報、誤った情報を削除することも可能。
データベースとしてWebそのものを再利用する方法としてはOpenAIのWebGPTがある