Google Luncurkan LMEval untuk Pengujian Model Bahasa dan Multimodal

May 27, 2025 9:23 am

Google merilis LMEval, sebuah kerangka kerja open-source yang bertujuan memudahkan perbandingan model AI besar dari berbagai perusahaan. Dengan LMEval, peneliti dan pengembang dapat mengevaluasi model seperti GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash, dan Llama-3.1-405B melalui proses yang terpadu.

Standarisasi Pengujian

Membandingkan model AI baru sering kali menjadi tantangan. Setiap penyedia menggunakan API, format data, dan pengaturan benchmark yang berbeda sehingga evaluasi jadi lambat dan rumit. LMEval menangani ini dengan menstandarkan prosesnya—begitu benchmark disiapkan, Anda dapat menerapkannya ke model mana pun yang didukung dengan sedikit usaha, tanpa menghiraukan asal produsen.

Dukungan untuk Berbagai Format

Selain teks, LMEval juga mendukung benchmark untuk gambar dan kode. Format input baru dapat ditambahkan dengan mudah. Sistem ini menangani berbagai tipe evaluasi, dari pertanyaan tipe ya/tidak dan pilihan ganda hingga generasi teks bebas. LMEval juga mampu mendeteksi ‘strategi menghindar’ di mana model sengaja memberikan jawaban evasif untuk menghindari konten bermasalah.

Fitur dan Keunggulan

Semua hasil tes disimpan dalam database SQLite yang terenkripsi sendiri, memastikan keamanan data yang mudah diakses tanpa terindeks mesin pencari. LMEval beroperasi di atas kerangka LiteLLM, yang menyamakan perbedaan antara API penyedia seperti Google, OpenAI, Anthropic, Ollama, dan Hugging Face, memungkinkan tes yang sama dijalankan di berbagai platform tanpa perlu penulisan ulang.

Google menyediakan alat visualisasi bernama LMEvalboard untuk analisis hasil. Dashboard ini dapat menghasilkan bagan radar yang menunjukkan performa model di berbagai kategori, serta memungkinkan perbandingan model-ke-model secara langsung, termasuk tampilan grafis bersebelahan tentang bagaimana perbedaan mereka dalam pertanyaan tertentu.