TinyFish Luncurkan BigSet: Sistem Multi-Agen Terbuka untuk Dataset

Redaksi akdah.ac.id – TinyFish baru saja meluncurkan BigSet, sebuah sistem multi-agent sumber terbuka yang bertujuan untuk menyederhanakan proses pembuatan dataset terstruktur dari data web yang tersedia secara langsung. BigSet diharapkan dapat memberikan solusi komprehensif untuk tantangan dalam pengumpulan dan penyusunan data, yang selama ini menjadi masalah di kalangan para peneliti, analisis data, maupun pengembang.

Inovasi dalam Pengumpulan Data

BigSet memanfaatkan deskripsi dalam bahasa alami untuk menghasilkan dataset terstruktur yang dapat diekspor. Proses ini meliputi inferensi skema, pengumpulan data, dan deduplikasi hasil. Dengan sistem ini, pengguna cukup menginput deskripsi, seperti “perusahaan YC yang sedang mencari insinyur, dengan tahap pendanaan, lokasi, dan jumlah lowongan terbuka.” BigSet akan menganalisis informasi tersebut, mengenali kolom-kolom yang relevan, mencari data yang diperlukan di internet, serta menyusun hasilnya dalam format tabel yang mudah dipahami, termasuk dalam bentuk file CSV atau XLSX.

Hasil dari proses ini tidak instan; pengguna harus menunggu sekitar 2–5 menit untuk mendapatkan dataset yang diinginkan. Pengambilan data dilakukan oleh agen yang secara real-time melakukan pencarian dan verifikasi data dari berbagai halaman web.

Arsitektur Sistem yang Terintegrasi

Arsitektur BigSet terdiri dari dua lapisan utama, yaitu inferensi skema dan agen orkestra. Lapisan pertama, lewat model Claude Sonnet yang terhubung melalui OpenRouter, akan mengidentifikasi kolom, tipe data, dan kunci utama dari dataset sebelum proses pengambilan data dilakukan. Setelah skema ditentukan, agen orkestra, yang menggunakan TinyFish Search, akan melakukan pencarian untuk mengidentifikasi entitas yang sesuai dengan deskripsi yang diberikan.

Setiap entitas yang ditemukan akan diteruskan ke sub-agen yang akan bekerja secara paralel. Proses ini memastikan efisiensi dalam pengumpulan data, di mana setiap sub-agen hanya diizinkan melakukan enam panggilan alat. Hal ini penting untuk menjaga keamanan dan efektivitas dalam pengambilan data.

Keamanan dan Keandalan

Salah satu fitur penting dari BigSet adalah sistem keamanannya yang canggih. Dengan pendekatan yang mengisolasi data, sub-agen bekerja dalam batasan yang ketat untuk mencegah kemungkinan serangan injeksi model. Proses input data tidak memberikan akses ke ID dataset yang sah kepada model, sehingga mengurangi risiko kebocoran atau penyalahgunaan data.

Setiap hasil yang didapatkan akan dilengkapi dengan atribusi sumber, memberikan transparansi mengenai dari mana data tersebut diambil. Dalam setiap tahap pengolahan, mulai dari pengambilan hingga ekspor, sistem ini menjaga integritas data dan sumbernya.

Kesimpulan

Peluncuran BigSet dari TinyFish merupakan terobosan signifikan dalam pengumpulan dan pengolahan data dari sumber online. Dengan kemampuannya untuk menangani permintaan kompleks dan menghasilkan dataset terstruktur secara otomatis, sistem ini bisa menjadi alat yang sangat berguna bagi para profesional di berbagai bidang. Untuk bisa memanfaatkan BigSet, pengguna hanya perlu menginstalnya di infrastruktur mereka sendiri menggunakan Docker, serta mendapatkan API key dari layanan yang diperlukan. Perlunya inovasi dalam pengumpulan data digital terpenuhi, membuka jalan bagi berbagai aplikasi dan analisis lebih lanjut.