メインコンテンツに直接移動

🧠 メインエージェントと機能

CodeActAgent

説明

このエージェントはCodeActのアイデア(論文ツイート)を実装しており、LLMエージェントのアクションを統一されたコードアクション空間に統合することで、_シンプルさ_と_パフォーマンス_の両方を実現します。

概念的なアイデアは以下のように示されています。各ターンで、エージェントは以下のことができます:

  1. 会話: 人間と自然言語でコミュニケーションを取り、明確化や確認などを求める
  2. CodeAct: コードを実行してタスクを実行することを選択する
  • 有効なLinux bash コマンドを実行する
  • インタラクティブなPythonインタプリタで有効なPythonコードを実行する。これはbashコマンドを通じてシミュレートされます。詳細については以下のプラグインシステムを参照してください。

image

デモ

https://github.com/All-Hands-AI/OpenHands/assets/38853559/f592a192-e86c-4f48-ad31-d69282d5f6ac

gpt-4-turbo-2024-04-09を使用したCodeActAgentがデータサイエンスタスク(線形回帰)を実行する例