メインコンテンツに直接移動

🧠 メインエージェントと機能

CodeActAgent

説明

このエージェントは、CodeActのアイデア (論文, ツイート) を実装しており、LLMエージェントの行動を、_シンプルさ_と_パフォーマンス_の両方のために、統一されたコード行動空間に統合します。

概念的なアイデアは以下の図に示されています。各ターンで、エージェントは以下のことができます。

  1. 会話: 明確化、確認などのために、自然言語で人間とコミュニケーションをとる。
  2. CodeAct: コードを実行してタスクを実行することを選択する
  • 任意の有効なLinux bashコマンドを実行する
  • 対話型Pythonインタープリターで任意の有効なPythonコードを実行する。これはbashコマンドを通してシミュレートされます。詳細はプラグインシステムを参照してください。

image

デモ

https://github.com/All-Hands-AI/OpenHands/assets/38853559/f592a192-e86c-4f48-ad31-d69282d5f6ac

データサイエンスタスク(線形回帰)を実行するgpt-4-turbo-2024-04-09を使用したCodeActAgentの例