Tutorial Browser-Use: Automasi Browser dengan AI Agent
Pendahuluan
Browser-Use adalah library Python open-source yang memungkinkan Large Language Model (LLM) mengontrol browser web secara otonom. Dengan Browser-Use, Anda dapat membangun AI agent yang mampu menavigasi halaman web, mengisi form, mengekstrak data, dan menjalankan tugas-tugas kompleks di browser layaknya manusia.
Library ini menjembatani gap antara kemampuan reasoning LLM dengan interaksi dunia nyata melalui browser. Berbeda dengan web scraping tradisional yang membutuhkan selector CSS atau XPath yang rapuh, Browser-Use memanfaatkan kemampuan vision dan reasoning LLM untuk memahami halaman web secara visual dan semantik.
Beberapa use case populer Browser-Use meliputi:
- Web Research Agent: Otomatis mencari dan mengumpulkan informasi dari berbagai sumber
- Form Automation: Mengisi formulir web secara otomatis
- Testing Agent: Melakukan pengujian UI secara otomatis
- Data Extraction: Mengekstrak data terstruktur dari halaman web
- Workflow Automation: Mengotomasi alur kerja yang melibatkan banyak langkah di browser
Dalam tutorial ini, kita akan membahas cara instalasi, penggunaan dasar, teknik lanjutan, serta best practices dalam menggunakan Browser-Use untuk membangun AI browser agent yang andal.
Instalasi
Prasyarat
Sebelum menginstal Browser-Use, pastikan Anda memiliki:
- Python 3.11 atau lebih baru
- pip atau uv sebagai package manager
- API key dari provider LLM (OpenAI, Anthropic, atau lainnya)
Instalasi dengan pip
pip install browser-use
Instalasi dengan uv (Rekomendasi)
uv pip install browser-use
Instal Playwright Browser
Browser-Use menggunakan Playwright sebagai engine browser. Setelah instalasi, jalankan:
playwright install chromium
Setup Environment Variables
Buat file .env di root project Anda:
OPENAIAPIKEY=sk-your-openai-key
ANTHROPICAPIKEY=sk-ant-your-anthropic-key
Verifikasi Instalasi
import browseruse
print(f"Browser-Use version: {browser
use.version}")
Penggunaan Dasar
Agent Pertama Anda
Berikut contoh paling sederhana untuk membuat browser agent:
import asyncio
from browseruse import Agent
from langchainopenai import ChatOpenAI
async def main():
agent = Agent(
task="Cari harga Bitcoin hari ini di Google dan berikan hasilnya",
llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()
print(result)
asyncio.run(main())
Agent akan membuka browser, navigasi ke Google, mencari harga Bitcoin, dan mengembalikan hasilnya.
Menggunakan Anthropic Claude
Browser-Use mendukung berbagai provider LLM. Berikut contoh menggunakan Claude:
import asyncio
from browseruse import Agent
from langchainanthropic import ChatAnthropic
async def main():
agent = Agent(
task="Buka Wikipedia dan cari informasi tentang Machine Learning",
llm=ChatAnthropic(model="claude-sonnet-4-20250514"),
)
result = await agent.run()
print(result)
asyncio.run(main())
Menjalankan dengan Browser Visible
Secara default, browser berjalan dalam mode headless. Untuk melihat apa yang dilakukan agent:
import asyncio
from browseruse import Agent, Browser, BrowserConfig
from langchainopenai import ChatOpenAI
async def main():
browser = Browser(
config=BrowserConfig(
headless=False, # Browser terlihat
)
)
agent = Agent(
task="Navigasi ke GitHub dan cari repository browser-use",
llm=ChatOpenAI(model="gpt-4o"),
browser=browser,
)
result = await agent.run()
print(result)
await browser.close()
asyncio.run(main())