賢明なオープンソースの1BパラメータモデルHRM-Text;46時間で1,472ドルの学習コストを達成

Beating、Sapient Intelligenceがオープンソース化したHRM-Textによれば、その階層的推論モデル(HRM)アーキテクチャに基づく10億(1-billion)パラメータのテキスト生成モデルです。6億(40 billion)の構造化トークンだけを使って、2台の8-GPU H100サーバーで学習に必要なのはわずか46時間で、計算コストは1B版で約1,472ドル、0.6B版で約800ドルです。これは、標準モデルと比べて事前学習の計算量を130〜600倍削減したことに相当します。

効率の向上は、同一入力上で交互に動作する、速いTransformerモジュールと遅いTransformerモジュールを別々に持つデュアルタイムスケールの反復設計によってもたらされます。さらに、状態の加算(state addition)により情報を交換します。データ抽出やPyTorchの分散トレーニングを含む完全なエンジニアリングの枠組みも、オープンソース化されています。なお、公開された重みはアラインメント未実施の事前学習のみです。このモデルはプレフィックス補完タスクには対応しますが、会話アシスタントとしては機能できません。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし