AIエージェントは、人間が設定した目的を達成するために、AI自身が思考し自動でタスクを実行するシステムです。今までのAIが特定のタスクを処理するのに特化していたのに対し、AIエージェントは自分で求められている結果から作業のプロセスを考え、実行することができるため、様々なタスクを実行することができます。
今回はそんなAIエージェントとして発表された「Browser Use」と「Operator」について解説していきます。どちらも、Webブラウザを使用したタスクを自動で実行することが可能になったAIエージェントです。
Browser Useは、Pythonで作られた、AIエージェントがWebブラウザにアクセスし、自動で操作することができるオープンソースのライブラリです。2024年の年末に公開されました。GPT-4, Claude 3, and Llama 2といった大規模言語モデルと互換性があり、自分の持っているAPIキーで開発が可能です。人間のスクリプトやマクロに従うのではなく、AIが自動でタスクを分解・実行し、必要であれば、タスクの修正や、ユーザへの確認を行ってくれます。
Browser Useには、すべてコマンドで操作する方法と、必要な数値やモデル名などをインターフェース上に入力するBrowser Use Web UI版があります。
詳しくはこちら↓
https://cdn.iframe.ly/cCQxlTw?v=1&app=1
Browser Useは以下の図のような流れでユーザの指示からタスクを分解・実行しています。
①:ユーザがエージェントにプロンプトで目的(タスク)を伝えます。
②:エージェントはAPI用いて、受け取ったタスクをLLM(大規模言語モデル)に問い合わせを行います。
③:タスクを分解し、操作手順を計画します。
操作には、クリックやテキスト入力などの基本的なものからファイルの保存など独自の操作をカスタマイズすることも可能です。
④:エージェントがブラウザを開いて操作を実行します。このとき、Playwrightというブラウザ自動化ツールを使用します。
⑤:エージェントはブラウザから操作の結果のページの状態(「検索結果が出ました。」「エラーが出ました」など)や、要素を取得します。
その後、取得した状態をもとに、再度LLMに問い合わせを行い、目的が達成されるまで②から⑤までをループします。
⑥重要な判断や操作に関してはエージェント側からユーザーに対してチェックや操作を依頼します。
Operatorも人間の指示(自然言語)をもとにWebブラウザを利用してタスクを自走的に分解・実行するAIエージェントです。2025年1月23日に公開され、現在(2/12)では、アメリカのProユーザ向けにプレビュー版が公開されており、将来的にすべてのユーザに向けに展開することが予定されています。OpenAIが開発したCUA(Computer-Using Agent)モデルに基づいてAPIを用いず、ブラウザ上でタスクを実行することができます。このAIエージェントの作業中でも人間が介入することも可能で、AIエージェントからユーザへ作業や、許可の依頼が来ることがあります。
詳しくはこちら↓
https://openai.com/index/introducing-operator
OperatorはOpenAIが開発したCUAモデルに基づいています。CUA(Computer-Using Agent)モデルの流れは以下の図のようになっています。
①ユーザがエージェントにプロンプトで指示を出します。
このステップではいつも私たちが生成AIを使用するときのようにチャットベースでエージェントとやり取りします。
②エージェントは指示を受け取り、ブラウザを開きます。
③ブラウザを開くと、画面を見て次に何をすればよいかエージェントが思考します。
④思考した手順に基づいて操作を行います。
この②から④の流れを繰り返すことでユーザからの指示を達成します。
⑤こちらも重要な判断や操作に関してはエージェントからユーザーへチェックや操作の依頼をします。
今までは人間が思考し、AIが作業を行うという仕組みだったのに対し、AIエージェントを用いることで思考を伴う一連の作業をAIエージェントが実行可能になりました。これにより、作業の主体はユーザで、ユーザがAIを呼び出すという構図から作業の主体がAIで、AIがユーザを呼び出すという構図に変化しました。
例えば、レストランの予約を行う時は条件に合うレストランをAIが探し、予約フォームやカードの情報などを打ち込み、ユーザは許可を出すだけで予約が可能になります。
このようにデジタルで完結するタスクは、AIエージェントに向いているタスクだといえます。また、その手順が多ければ多いほどAIエージェント活用によるメリットは大きいものになります。
便利なAIエージェントですが、まだまだリスクもあります。ブラウザの自動操作では、フォームへの入力や商品の購入時にミスが生じる場合があります。そのため、フォームの入力や購入や予約の確定など、重要な判断の際にユーザに操作を求める仕組みを活用する必要があります。
また、個人情報や金融情報などの機密情報をどこまでエージェントに保存しておくかというセキュリティ面の課題も残されています。
Browser Useの特徴として、オープンソースであることがあげられます。そのため、AIエージェントのアクションをカスタマイズできる自由度が高く、独自のアクションを追加することができます。また、ブラウザで読み込んだページの要素をすべて自動で解析しながらアクションしているため、その解析した情報はスクリーンショットやテキスト情報として取得することができます。
OperatorはBrowser Useと違い、手軽に操作できるのが特徴です。Browser Useはインストールしたうえで、LLMのAPIキーやPythonの仮想環境など様々な準備が必要ですが、Operatorは、いつもChatGPTとチャットで話すようにチャットベースで会話し、ブラウザを操作してもらうことが可能です。これから利用者が拡大され、API利用も可能になると予想されており、そうなればアクションのカスタマイズ性が高まり、アクションの精度も向上していくでしょう。
様々なことに活用できる可能性のあるAIエージェントですが、以下のような活用例が紹介されています。
そのほかにも
などの活用手段が考えられています。
今後のAIエージェントは、より精度を向上させ、エージェントが操作する際のミスが減ることが期待できます。Operatorに関しては精度を高めたうえで、日本など利用者が拡大していくことが予想されます。また、一つ一つのタスクを完了するたびにAPIを利用したり、思考したりするため、トークンの消費量や処理にかかる時間を減らすための改良がされ、より早く精度の高い処理が可能になると考えられます。
利用者側としては、AIエージェントが動きやすいようにプロンプトを工夫したり、重要な判断や大事な決断の場面には適宜エージェントが判断をあおってくるような仕組みを作っていく必要があります。
これからますます身の回りでAIエージェントは利用されていくでしょう。これを機にAIについて知識をつけたり、活用してみてはいかがでしょうか。
私たち株式会社メイトでは、いち早くAI関連のトピックをキャッチしお伝えしていきます。AIについてもっと知りたい方、AIを導入したい方など気軽にお問合せお待ちしております。
常に変化し、成長を続けていく組織を一緒に創るメンバーを探しています。
MATEでは、多様なバックグラウンドを持ったメンバーが活躍しています。
ご興味を持っていただいた方は、ぜひ採用ページをご覧ください。