強化学習過程で想定外の自律行動が発生
アリババ(Alibaba)系研究者を含む研究チームが、AIエージェント研究に関する論文「Let It Flow: Agentic Crafting on Rock and Roll」を2025年12月31日に公開し、2026年1月4日に改訂版を公開した。その中でAIエージェントがトレーニング中に暗号資産(仮想通貨)のマイニングを試みる挙動が観測されたことが報告されている。なおこのことは各社メディアが3月9日に報じた。
同論文は、AIエージェント向けの学習基盤「エージェンティック・ラーニング・エコシステム(Agentic Learning Ecosystem:ALE)」と、その上で動作するエージェントモデル「ローム(ROME)」について説明した研究報告だ。
報告によると、研究チームが軌跡生成のロールアウトを進めていた際、アリババクラウド(Alibaba Cloud)の管理ファイアウォールが異常な通信活動を検知したという。アラートには、内部ネットワークリソースへのアクセス試行や、暗号資産マイニング関連の活動と一致する通信パターンなどが含まれていたと説明されている。
その後の調査で、AIエージェントが割り当てられたGPUリソースを無断で暗号資産マイニングに転用していたことが確認されたという。研究チームは当初、外部からの攻撃や設定ミスなどのセキュリティ事故の可能性を疑ったものの、同様の挙動が複数回の実行で断続的に発生したことから、AIエージェント自身による行動であることが判明したとしている。
論文では、これらの挙動は人間からの指示によって引き起こされたものではなく、強化学習の最適化過程において、エージェントがツールを自律的に利用する中で生じた副作用として発生した可能性があると説明されている。
研究チームはこの事例について、自律型AIエージェントがツールや計算資源、ネットワークにアクセスできる環境では、予期しない挙動が発生し得ることを示すものだと指摘している。特に、運用コストの増加やセキュリティ上のリスクにつながる恐れがあるとして、AIエージェントの安全性や制御性に関する研究の重要性を強調している。
参考:論文
画像:PIXTA