LLM Siap Pakai Sebagai Penilai Proses Matematika Tanpa Pelatihan

Redaksi akdah.ac.id – Dalam perkembangan terbaru di dunia kecerdasan buatan, sebuah metode inovatif bernama Chunk-Level Guided Generation telah diperkenalkan sebagai alternatif yang menarik untuk meningkatkan kinerja model-model kecil dalam memilih respons yang lebih tepat. Penelitian ini berfokus pada strategi baru yang tidak memerlukan pelatihan tambahan dan memanfaatkan model bahasa besar sebagai skorer proses dalam pemilihan chunk.

Table of Contents

Pentingnya Pemilihan Respons dalam Kecerdasan Buatan

Pemilihan respons yang optimal dari sekumpulan sampel model kecil sering kali menjadi tantangan yang kompleks. Metode tradisional, seperti menggunakan pemilih yang lebih kuat, sering kali tidak efektif ketika model kecil sudah terjebak dalam jalur penalaran yang salah. Untuk mengatasi masalah ini, Chunk-Level Guided Generation hadir sebagai solusi yang dapat menghindari penyebaran kesalahan selama proses generasi.

Bagaimana Chunk-Level Guided Generation Bekerja?

Dalam sistem ini, pada setiap langkah, model kecil akan menghasilkan k chunk kandidat yang memiliki panjang tetap. Model besar kemudian akan menilai kandidat tersebut menggunakan probabilitas tanpa menghasilkan teks tambahan. Pemilihan chunk yang terbaik terjadi sebelum langkah berikutnya, sehingga dapat mengarahkan proses generasi secara lebih efektif.

Dua Aturan Pemilihan dalam Framework

Metode ini mengimplementasikan dua aturan pemilihan, yaitu Likelihood-Guided Selection (LGS) dan Contrastive-Guided Selection (CGS). LGS memilih chunk dengan log-probabilitas yang dinormalisasi berdasarkan panjang yang tertinggi, sementara CGS mengurangi log-probabilitas model kecil untuk lebih mendukung chunk di mana preferensi model besar berbeda dari model kecil. Penelitian menunjukkan bahwa skoring langkah penalaran dengan probabilitas model besar tidak selalu dapat diandalkan karena adanya bias panjang yang sistematik. Chunk dengan panjang tetap muncul sebagai solusi yang lebih baik.

Kinerja CGS di Berbagai Benchmark

Dalam pengujian yang dilakukan di beberapa benchmark seperti GSM8K, MATH, Minerva Math, AMC23, dan AIME24, metode CGS menunjukkan performa yang signifikan. Ketika dipandu oleh model-model besar seperti Qwen2.5-32B dan Llama-3.1-70B, CGS berhasil mengungguli metode pemungutan suara mayoritas dengan peningkatan hingga 28 poin persentase. Bahkan dalam situasi dengan anggaran panduan yang sebanding, CGS mampu bersaing atau mengungguli pencarian berbasis panduan model lain.

Sebagai contoh, penggunaan model Qwen2.5-7B yang dipandu oleh Qwen2.5-72B mencatatkan kinerja 81,8% di MATH dan 63,6% di Minerva Math dengan k=16, melebihi pemungutan suara mayoritas sebesar 4 hingga 6 poin persentase. Hal ini menunjukkan bahwa Chunk-Level Guided Generation bukan hanya meningkatkan akurasi, tetapi juga menghasilkan jejak penalaran yang lebih pendek dibandingkan dengan pencarian yang dipandu oleh PRM.

Dampak dan Respon terhadap Teknologi Baru Ini

Perkembangan ini menjadi perhatian karena menawarkan pendekatan yang lebih efisien dalam penggunaan model bahasa besar, serta membuka potensi baru dalam penerapan kecerdasan buatan. Dengan meningkatnya ketepatan dalam pemilihan respons, diharapkan teknologi ini dapat diterapkan dalam berbagai bidang, termasuk pendidikan, pelayanan pelanggan, dan pengembangan perangkat lunak.

Banyak pakar dalam bidang kecerdasan buatan memandang metode ini sebagai langkah maju yang signifikan. Dengan tidak memerlukan pelatihan tambahan dan menghindari bias, Chunk-Level Guided Generation menjadi alat yang berharga untuk memajukan efisiensi dan efektivitas model-model kecil.

Kesimpulan

Chunk-Level Guided Generation menawarkan solusi inovatif dalam meningkatkan akurasi pemilihan respons di dunia kecerdasan buatan. Dengan memanfaatkan kekuatan model besar untuk menilai chunk kandidat, teknik ini membuktikan diri sebagai metode yang efektif, efisien, dan tanpa kebutuhan pelatihan tambahan. Perkembangan ini diharapkan akan membawa dampak positif dalam aplikasi model bahasa di berbagai sektor.