RETRO

  • DeepMindの大規模自然言語モデル
  • 直接学習データセットそのものを検索することで、より小さなモデルサイズで性能を維持することに成功
  • 同じ数のパラメータを持つ標準的な*Transformer:*ベースモデルと比較して大幅な性能向上を実現
  • モデル内で本来持つべきパラメータの一部を外部のデータベースにアウトソーシングする
  • RETRO では、英語、スペイン語、ドイツ語、フランス語、ロシア語、中国語、スワヒリ 語、ウルドゥー語を含む 10 言語のテキストを含むニュース記事、ウィキペディアのテキス ト、書籍、GitHub のテキストで構成されるデータセットでモデルを学習する。
  • RETRO ニ ューラルネットワークには 70 億個のパラメータしかない。そのため、これを約 2 兆のテキ ストパッセージを含むデータベースで補う方法をとっている。
  • 検索データベー スのサイズを大きくするにつれて、自然言語モデルの性能が継続的に向上し、少なくとも 2 兆トークンまで確認されており、学習データとしての 2 兆トークンはそのまま外部データ 35 ベースとして使用された。
  • データベースはニューラルネットワークを再学習せずに更新することもでき、新しい情報を素早く追加したり、古い情報、誤った情報を削除することも可能。
  • データベースとしてWebそのものを再利用する方法としてはOpenAIWebGPTがある