🧠 メインエージェントと機能
CodeActAgent
説明
このエージェントはCodeActのアイデア(論文、ツイート)を実装しており、LLMエージェントのアクションを統一されたコードアクション空間に統合することで、_シンプルさ_と_パフォーマンス_の両方を実現します。
概念的なアイデアは以下のように示されています。各ターンで、エージェントは以下のことができます:
- 会話: 人間と自然言語でコミュニケーションを取り、明確化や確認などを求める
- CodeAct: コードを実行してタスクを実行することを選択する
- 有効なLinux
bash
コマンドを実行する - インタラクティブなPythonインタプリタで有効な
Python
コードを実行する。これはbash
コマンドを通じてシミュレートされます。詳細については以下のプラグインシステムを参照してください。
デモ
https://github.com/All-Hands-AI/OpenHands/assets/38853559/f592a192-e86c-4f48-ad31-d69282d5f6ac
gpt-4-turbo-2024-04-09
を使用したCodeActAgentがデータサイエンスタスク(線形回帰)を実行する例。