Liquid AI Luncurkan LFM2.5 untuk Pencarian Multilingual Cepat

Tuan Redaksi

2 days ago

Redaksi akdah.ac.id – Liquid AI baru saja meluncurkan dua model pemulihan anyar, yaitu LFM2.5-ColBERT-350M dan LFM2.5-Embedding-350M. Kedua model ini memiliki 350 juta parameter dan menjadi anggota pertama dari keluarga LFM yang bersifat bidirectional. Model-model ini dikembangkan untuk melakukan pencarian multibahasa dan lintas-bahasa dengan cepat di 11 bahasa. Dengan ukuran yang kecil, kedua model ini mampu berjalan di berbagai perangkat. Saat ini, keduanya telah tersedia di platform Hugging Face di bawah lisensi terbuka LFM Open License v1.0.

Table of Contents

Toggle

LFM2.5 Retrievers: Model Baru untuk Pencarian Multibahasa

Kedua model tersebut berbagi satu arsitektur dasar, tetapi cara mereka merepresentasikan teks berbeda. LFM2.5-Embedding-350M bertindak sebagai bi-encoder padat yang mengubah setiap dokumen menjadi satu vektor. Ini ideal untuk pencarian cepat dengan indeks yang lebih kecil dan lebih efisien. Sementara itu, LFM2.5-ColBERT-350M merupakan model interaksi-lambat yang mengkonversi setiap token menjadi vektor terpisah. Metode ini memungkinkan pencocokan kata per kata untuk akurasi yang lebih tinggi dan generalisasi yang lebih baik, meskipun dengan ukuran indeks yang lebih besar.

Model-model ini dirancang untuk pencarian konteks pendek, dan sangat cocok untuk digunakan dalam katalog produk, basis pengetahuan FAQ, serta dokumen dukungan. Liquid AI menempatkan kedua model tersebut sebagai pengganti yang mudah digunakan dalam pipeline RAG (Retrieval-Augmented Generation) yang sudah ada.

Perubahan Arsitektur: Dari Kausal ke Bidirectional

Model-model ini berawal dari checkpoint general-purpose LFM2.5-350M-Base, yang telah dilatih secara mid-training. Liquid AI menerapkan serangkaian perbaikan bidirectional pada arsitektur LFM, yang awalnya bersifat kausal. Dalam pengaturan kausal, setiap token hanya menggunakan informasi dari dirinya sendiri dan token sebelumnya, yang cocok untuk generasi dari kiri ke kanan, tetapi kurang alami untuk pengambilan data. Dengan mengubah topeng perhatian kausal menjadi bidirectional, setiap token bisa mengakses konteks dari kedua sisi, sehingga menghasilkan representasi penuh yang dibutuhkan untuk pemulihan informasi.

Kedua model ini memiliki 17 lapisan, terdiri dari 10 lapisan konvolusi, 6 lapisan perhatian, dan 1 lapisan pengumpulan atau padat. Meskipun panjang konteks mencapai 32.768 token, dokumen biasanya dioptimalkan untuk 512 token. Dalam hal output, model Embedding menggunakan pooling gaya CLS untuk satu vektor dimensi 1024, sedangkan ColBERT menyimpan embedding per token dengan dimensi 128 untuk interaksi lambat.

Pelatihan dan Data

Kedua model mengikuti resep pelatihan tiga tahap yang sama. Tahap pertama adalah pra-pelatihan kontrasif skala besar dalam bahasa Inggris. Tahap kedua melibatkan distilasi multibahasa dan lintas-bahasa dari model yang kuat di semua 11 bahasa. Terakhir, tahap ketiga adalah penyempurnaan akhir pada data negatif yang sulit diidentifikasi.

Model Embedding mendapatkan sedikit lebih banyak data lintas-bahasa dibandingkan dengan ColBERT. Pelatihan data mengombinasikan data internal yang telah dikurasi dengan dataset pemulihan sumber terbuka dalam bahasa Inggris. Terjemahan berbasis LLM digunakan untuk memperluas pasangan multibahasa dan lintas-bahasa.

Benchmarking Kinerja

Liquid AI melakukan evaluasi terhadap dua kemampuan utama, yaitu pemulihan multibahasa menggunakan NanoBEIR dan pertanyaan terbuka lintas-bahasa dengan MKQA-11. Hasilnya menunjukkan bahwa kedua model ini unggul di kelasnya. Model LFM2.5-ColBERT-350M mencatat skor tertinggi dalam laporan NanoBEIR dengan nilai NDCG@10 0.605, sementara LFM2.5-Embedding-350M mengikuti dengan nilai 0.577. Hal ini mencerminkan kinerja tinggi dalam pencarian data multibahasa.

Kedua model ini memiliki latensi rendah dan dapat digunakan di perangkat tepi, termasuk CPU dan laptop, menggunakan varian GGUF yang dirilis oleh Liquid AI. Ini memungkinkan kedua model beroperasi dengan efisien, dengan latensi query p50 di bawah 10 ms dalam kondisi tertentu.

Contoh Kasus Penggunaan

Kedua model ini menawarkan berbagai potensi aplikasi. Dalam industri e-commerce, model ini dapat digunakan untuk mencari katalog produk lintas bahasa dengan satu indeks, sehingga memudahkan pembeli untuk menemukan informasi meskipun menggunakan kueri dalam bahasa yang berbeda. Di sisi lain, model ini juga sangat berguna dalam basis pengetahuan dukungan FAQ, memungkinkan retrieval informasi yang tepat secara konsisten.

Selain itu, kedua model ini dapat diterapkan dalam pencarian semantik di perangkat, mencakup arsip dokumen, email, dan catatan lokal pada perangkat keras konsumen. Dalam konteks perusahaan, model ini bermanfaat untuk mengambil dokumen internal yang beragam, baik legal, finansial, maupun teknis, melintasi bahasa-bahasa yang berbeda.

Kesimpulan

Liquid AI dengan peluncuran LFM2.5-ColBERT-350M dan LFM2.5-Embedding-350M telah menghadirkan inovasi signifikan dalam teknologi pemulihan informasi multibahasa dan lintas-bahasa. Keberadaan model dengan ukuran kecil ini memudahkan adopsi di berbagai platform dan aplikasi. Dengan kinerja yang sudah teruji dalam benchmark dan kemampuan untuk beradaptasi pada berbagai kondisi penggunaan, kedua model ini memiliki potensi yang besar untuk mengubah cara informasi dicari dan diakses di seluruh dunia.