OpenAI Luncurkan LifeSciBench, Benchmark AI untuk Riset Ilmiah

Tuan Redaksi

3 hours ago

Redaksi akdah.ac.id – OpenAI baru saja meluncurkan LifeSciBench, sebuah benchmark yang dirancang untuk mengisi celah dalam evaluasi model-model biologi. Benchmark ini terdiri dari 750 tugas yang ditulis oleh para ahli, mencakup beragam domain biologi dan alur kerja yang relevan. Melalui LifeSciBench, diharapkan dapat memberikan penilaian yang lebih menyeluruh terhadap kemampuan model dalam menangani data ilmiah yang kompleks.

Table of Contents

Toggle

Pengenalan LifeSciBench

LifeSciBench memiliki fokus pada evaluasi keterampilan yang diperlukan dalam berbagai alur kerja ilmiah. Terdapat tujuh domain biologis yang tercakup di dalamnya, termasuk genomic, kimia medis, serta sains klinis dan translasi. Tugas-tugas yang disediakan tidak berupa pilihan ganda, melainkan dalam format yang memungkinkan penjawab untuk bebas merespons, mencerminkan gaya komunikasi ilmiah yang sebenarnya.

Setiap tugas dirancang sedemikian rupa sehingga hampir 79% di antaranya memerlukan beberapa langkah berpikir atau keputusan, dengan rata-rata empat langkah untuk menyelesaikannya. Hal ini menunjukkan bahwa LifeSciBench bukan hanya menguji pengetahuan faktual, tetapi juga kemampuan analisis dan penerapan logika ilmiah.

Proses Pengembangan Benchmark

Benchmark ini dikembangkan oleh sekelompok 173 ilmuwan ahli yang memiliki latar belakang pendidikan doktoral dalam bidang bioteknologi dan farmasi. Setiap tugas yang diajukan harus melalui beberapa siklus peninjauan otomatis dan peninjauan oleh ahli, sehingga memastikan kualitas dan relevansi dari setiap tugas. Secara keseluruhan, terdapat 1.062 artefak yang menyertai tugas-tugas ini, memberikan konteks tambahan yang penting bagi para penjawab.

Proses validasi juga melibatkan 453 pengulas yang memiliki tingkat pendidikan doktoral, dan 97% di antaranya menyetujui relevansi dan kualitas dari tugas yang diajukan. Hal ini menunjukkan komitmen terhadap integritas dan ketelitian dalam pembuatan benchmark yang dapat dipercaya.

Rangkaian Poin dan Kriteria Penilaian

LifeSciBench menggunakan sistem rubrik sebagai mekanisme penilaian utamanya, dengan total 19.020 kriteria di seluruh benchmark. Setiap kriteria memberikan nilai spesifik, baik berupa fakta yang konkret, langkah berpikir, maupun jawaban numerik. Metode penilaian ini memisahkan skor normalisasi dengan tingkat kelulusan tugas, di mana sebuah respon dapat memperoleh kredit parsial meskipun tetap gagal dalam tugas tersebut.

Pemahaman mengenai metrik ini menjadi penting dalam menganalisis kinerja model. Penilaian dilakukan tidak hanya berdasarkan jawaban akhir, tetapi juga memperhitungkan langkah-langkah menuju jawaban tersebut. Ini berarti, walaupun suatu model terlihat berhasil di banyak tugas, mungkin saja secara rinci terdapat area yang perlu diperbaiki.

Kinerja Model yang Dievaluasi

Dalam evaluasi LifeSciBench, OpenAI menguji lima model dalam kondisi satu putaran, di mana setiap model diberikan akses terhadap prompt dan artefak yang disertakan. Model GPT-Rosalind, yang merupakan spesialis dalam domain ini, mencetak skor tertinggi dengan tingkat kelulusan 36,1%, diikuti oleh model-model lainnya dengan skor yang lebih rendah. Kinerja ini menunjukkan bahwa meskipun ada peningkatan, masih terdapat tantangan yang harus dihadapi oleh model-model dalam menyelesaikan tugas yang melibatkan artefak kompleks.

Beberapa area tetap menjadi tantangan, terutama dalam alur kerja desain, optimisasi, dan prediksi, yang terlihat paling sulit dengan tingkat kelulusan yang rendah. Selain itu, penggunaan artefak juga menjadi hambatan yang signifikan, di mana penurunan skor terlihat saat tugas melibatkan artefak dibandingkan dengan tugas yang hanya terdiri dari teks.

Kesimpulan

LifeSciBench hadir sebagai alat yang penting dalam evaluasi model biologi, memberikan cara yang sistematis dan terstruktur untuk menilai kemampuan ilmiah dari model-model tersebut. Dengan berbagai tugas yang mencakup alur kerja dan domain biologi yang luas, diharapkan benchmark ini akan membantu para peneliti dan pengembang dalam memahami kekuatan dan batasan model-model yang mereka kembangkan. Meskipun telah ada kemajuan, hasil evaluasi menunjukkan bahwa masih banyak pekerjaan yang harus dilakukan untuk meningkatkan kehandalan model di bidang biologi ini.