agri1.ai: Pendekatan Dua Sisi untuk LLM, chatGPT di bidang Pertanian - Frontend & Embedding dan Domain-Specific Large Language Model untuk Pertanian

Selamat datang di dunia LLMS seperti Claude, Llama, dan chatGPT di bidang pertanian, selamat datang di agri1.ai, sebuah inisiatif yang bertujuan untuk mengeksplorasi potensi kecerdasan buatan (AI) dalam industri pertanian. Seiring dengan pertumbuhan populasi global, permintaan akan praktik pertanian yang efisien dan berkelanjutan menjadi semakin mendesak. AI, dengan kemampuannya untuk menganalisis data dalam jumlah besar dan membuat prediksi yang akurat, dapat menjadi pengubah permainan dalam memenuhi permintaan ini.

Pendahuluan
Kondisi agri1.ai saat ini
Masa depan agri1.ai & Model Bahasa Besar Khusus Domain untuk Pertanian
Pendekatan dan Model Sumber Terbuka LLM
LLM yang ada di bidang Pertanian

Pendahuluan

Dengan agri1.aikami mengambil pendekatan dua sisi untuk memanfaatkan kekuatan AI untuk pertanian. Di satu sisi, kami mengembangkan antarmuka frontend yang menggunakan Large Language Model (LLM) yang sudah ada, menyempurnakannya, menyematkannya, dan mengontekstualisasikannya dengan data publik dan internal. Di sisi lain, kami mengeksplorasi kemungkinan untuk membuat LLM khusus domain kami sendiri untuk pertanian.

Dalam lingkungan yang berubah dengan cepat, baik dari segi iklim maupun pasar, konsep agri1.ai menjadi semakin penting. Hal ini terutama berlaku untuk masyarakat dan wilayah yang digerakkan oleh pertanian besar seperti benua Afrika, di mana kurangnya pengetahuan dapat menyebabkan tantangan yang signifikan dalam pertanian. Salah satu misi agri1.ai adalah untuk mengatasi masalah ini, mendukung petani kecil dalam perjuangan mereka dengan kondisi iklim yang berubah dengan cepat, dan memberikan konsultasi yang lebih baik untuk budaya pertanian baru yang bergantung pada kondisi iklim dan tanah. Kurangnya pendidikan di beberapa bagian dunia juga menjadi motivasi bagi kami untuk mendukung para petani melalui inisiatif kami.

Kondisi agri1.ai Saat Ini: Menjembatani Kesenjangan Antara Manusia dan AI

Inti dari inisiatif kami, agri1.ai berfungsi sebagai platform dinamis, menjembatani kesenjangan antara manusia di bidang pertanian dan dunia perangkat lunak dan algoritme AI. Tujuan utama kami adalah untuk memfasilitasi interaksi tanpa batas antara kedua entitas ini, membina hubungan simbiosis yang meningkatkan efisiensi dan keberlanjutan praktik pertanian.

Saat ini, a gri1.ai beroperasi di atas fondasi GPT OpenAI, sebuah Model Bahasa Besar (Large Language Model, LLM) yang mutakhir. Kami telah mengadaptasi sebagian dan menyempurnakan model ini untuk memahami dan menghasilkan teks yang berpusat pada pertanian dengan lebih baik, sehingga meningkatkan relevansi dan kegunaannya bagi para pengguna kami. Selain itu, kami juga telah memasukkan sebagian penyematan data, mengintegrasikan data publik dan internal, untuk meningkatkan pemahaman kontekstual model terhadap domain pertanian.

Dalam bidang AI, kesederhanaan sering kali menjadi kunci keberhasilan. Membangun dan menerapkan aplikasi AI dapat menjadi proses yang rumit, dan menjaga kesederhanaan dalam operasi kami memungkinkan kami untuk fokus dalam memberikan layanan berkualitas tinggi dan ramah pengguna. Dengan membangun LLM yang sudah ada dan dihosting, kami dapat memanfaatkan kekuatan AI yang canggih sambil mempertahankan sistem yang efisien dan ramping.

Salah satu landasan operasi kami adalah tata kelola data. Kami menyadari pentingnya mengelola ketersediaan, kegunaan, integritas, dan keamanan data pengguna kami. Pendekatan komprehensif terhadap tata kelola data ini tidak hanya memastikan keandalan dan kegunaan informasi yang disediakan oleh agri1.ai, tetapi juga mengatasi masalah utama seperti kepatuhan terhadap peraturan, privasi, kualitas, dan keamanan. Kami memahami bahwa perusahaan agribisnis memiliki kekhawatiran yang valid tentang kebocoran data dan potensi LLM untuk dilatih tentang data internal, yang membahayakan kedaulatan data. Kami ingin meyakinkan para pengguna kami bahwa kami menanggapi kekhawatiran ini dengan sangat serius dan secara aktif mengerjakan strategi untuk mengatasi masalah ini.

Seiring dengan upaya kami untuk terus menyempurnakan dan meningkatkan agri1.ai, kami juga menjajaki kemungkinan untuk menciptakan LLM baru dengan melatih ulang, atau menyempurnakan LLM yang sudah ada. Pendekatan ini berpotensi memungkinkan kami untuk menciptakan model yang lebih terspesialisasi dan efektif untuk pertanian.

Masa Depan agri1.ai: Model Bahasa Besar Khusus Domain untuk Pertanian

Meskipun kami bangga dengan apa yang telah kami capai dengan agri1.ai sejauh ini, kami tidak akan berhenti sampai di situ. Kami juga menjajaki kemungkinan untuk membuat LLM khusus domain kami sendiri untuk pertanian. Model ini, yang kami sebut agriLLM (judul kerja), akan dilatih dengan sejumlah besar data teks yang berhubungan dengan pertanian, menjadikannya ahli dalam bahasa dan nuansa industri pertanian.

Menciptakan agriLLM akan menjadi proses yang kompleks, yang melibatkan pengumpulan data, pembersihan data dan prapemrosesan, pemilihan model, pelatihan model, penyempurnaan, evaluasi dan pengujian, dan penyebaran. Kami juga berencana untuk melibatkan para ahli di berbagai bidang pertanian untuk membantu kami membangun set data pelatihan yang terperinci dan menyempurnakan model.

Pengumpulan Data: Langkah pertama dalam membangun LLM khusus domain untuk pertanian adalah mengumpulkan sejumlah besar data yang relevan dengan bidang tersebut. Data tersebut dapat berupa artikel ilmiah, makalah penelitian, panduan pertanian, laporan cuaca, data hasil panen, dan banyak lagi. Data tersebut harus mencakup berbagai topik dalam bidang pertanian untuk memastikan model yang dihasilkan memiliki pengetahuan yang luas dan mendalam di semua aspek bidang tersebut. Alat seperti web scraping dapat digunakan untuk mengotomatiskan proses pengumpulan data dari berbagai sumber online.
Pemrosesan Data: Setelah data dikumpulkan, data tersebut perlu diproses terlebih dahulu untuk mempersiapkannya dalam pelatihan LLM. Hal ini melibatkan pembersihan data (menghapus duplikasi, memperbaiki nilai yang hilang atau salah), normalisasi (mengubah semua teks menjadi huruf kecil, menghapus tanda baca, dan menghentikan kata), dan tokenisasi (memecah teks menjadi kata atau frasa untuk membuat kosakata untuk model bahasa).
Pemilihan dan Konfigurasi Model: Langkah berikutnya adalah memilih arsitektur model yang sesuai untuk LLM. Model berbasis transformator seperti GPT-3 dan BERT adalah pilihan yang populer karena kemampuannya menangani urutan teks yang panjang dan menghasilkan output berkualitas tinggi. Konfigurasi model, termasuk jumlah lapisan, kepala perhatian, fungsi kerugian, dan hiperparameter, perlu ditentukan pada tahap ini.
Pelatihan Model: Model kemudian dilatih pada data yang telah diproses sebelumnya. Hal ini melibatkan penyajian model dengan urutan kata dan melatihnya untuk memprediksi kata berikutnya dalam urutan tersebut. Model menyesuaikan bobotnya berdasarkan perbedaan antara prediksi dan kata yang sebenarnya. Proses ini diulang jutaan kali hingga model mencapai tingkat kinerja yang memuaskan.
Evaluasi dan Penyempurnaan: Setelah pelatihan awal, model dievaluasi pada dataset pengujian yang terpisah. Berdasarkan hasil evaluasi, model mungkin memerlukan beberapa penyesuaian. Hal ini dapat melibatkan penyesuaian hiperparameter, perubahan arsitektur, atau pelatihan pada data tambahan untuk meningkatkan kinerjanya.
Penyempurnaan Khusus Domain: Untuk membuat LLM spesifik untuk pertanian, LLM disesuaikan dengan data spesifik domain yang dikumpulkan pada langkah pertama. Hal ini membantu model untuk memahami terminologi, konteks, dan nuansa unik dari domain pertanian.
Integrasi dengan agri1.ai: Setelah LLM khusus domain siap, LLM tersebut diintegrasikan dengan sistem agri1.ai. Hal ini melibatkan pengaturan API dan antarmuka yang diperlukan untuk memungkinkan agri1.ai memanfaatkan kemampuan LLM yang baru.
Pengujian dan Umpan Balik Pengguna: Sistem agri1.ai yang telah diperbarui kemudian diuji oleh pengguna akhir. Umpan balik dari mereka dikumpulkan dan digunakan untuk mengidentifikasi masalah atau area yang perlu diperbaiki.
Peningkatan Berkesinambungan: Berdasarkan umpan balik dari pengguna, LLM terus diperbarui dan ditingkatkan. Hal ini dapat melibatkan penyempurnaan lebih lanjut, menambahkan lebih banyak data ke set pelatihan, atau mengubah arsitektur model.
Pemantauan dan Pemeliharaan: Terakhir, kinerja LLM terus dipantau untuk memastikan bahwa LLM memberikan hasil yang akurat dan berguna. Pemeliharaan rutin juga dilakukan untuk menjaga agar sistem tetap berjalan dengan lancar.

Membangun LLM khusus untuk pertanian adalah tugas yang kompleks namun dapat dicapai. Hal ini melibatkan serangkaian langkah mulai dari pengumpulan data hingga perbaikan berkelanjutan. Dengan mengikuti proses ini, kami bertujuan untuk mengembangkan LLM yang dapat memberikan informasi yang akurat, relevan, dan berguna bagi pengguna di industri pertanian.

Pendekatan dan Model Sumber Terbuka

Kami terus memantau perkembangan komunitas AI yang lebih luas. Salah satu sumber daya yang menurut kami sangat berguna adalah Papan peringkat LMSYSyang memberi peringkat berbagai LLM berdasarkan kinerjanya. Beberapa model di papan peringkat ini, seperti GPT-4 dari OpenAI dan Claude-v1 dari Anthropic, berpotensi untuk digunakan sebagai fondasi untuk agriLLM.

Namun, kami juga menyadari adanya kesenjangan antara model proprietary dan model open-source. Meskipun model berpemilik seperti GPT-4 saat ini memimpin dalam hal ini, kami optimis akan potensi model sumber terbuka untuk mengejar ketertinggalan. Salah satu model open-source tersebut adalah MosaicML, yang menyediakan platform yang fleksibel dan modular untuk model pembelajaran mesin, dan berpotensi digunakan untuk melatih LLM kami sendiri.

MosaicML menawarkan berbagai fitur yang dapat bermanfaat untuk pengembangan agriLLM. Hal ini memungkinkan pelatihan model multi-miliar parameter dalam hitungan jam, bukan hari, dan menawarkan penskalaan yang efisien pada skala besar. Platform ini juga menyediakan peningkatan kinerja otomatis, yang memungkinkan pengguna untuk tetap berada di ujung tombak efisiensi. Platform MosaicML mendukung pelatihan model bahasa besar dalam skala besar dengan satu perintah, dan menyediakan pengulangan otomatis dari kegagalan simpul dan lonjakan kerugian, yang dapat sangat berguna untuk waktu pelatihan yang lama yang terkait dengan model besar seperti agriLLM.

LLM yang ada di bidang Pertanian

Dalam penelitian kami, kami telah menemukan sebuah model khusus untuk bidang pertanian, yang dinamakan AgricultureBERT, sebuah model bahasa berbasis BERT yang telah dilatih lebih lanjut dari pos pemeriksaan SciBERT. Model ini dilatih dengan dataset yang seimbang antara karya ilmiah dan karya umum dalam domain pertanian, yang mencakup pengetahuan dari berbagai bidang penelitian pertanian dan pengetahuan praktis.

Korpus yang digunakan untuk melatih AgricultureBERT berisi 1,2 juta paragraf dari National Agricultural Library (NAL) dari Pemerintah Amerika Serikat dan 5,3 juta paragraf dari buku-buku dan literatur umum dari Domain Pertanian. Model ini dilatih menggunakan pendekatan pembelajaran mandiri Masked Language Modeling (MLM), yang melibatkan penyembunyian 15% kata dalam kalimat masukan dan kemudian meminta model untuk memprediksi kata-kata yang disembunyikan. Pendekatan ini memungkinkan model untuk mempelajari representasi dua arah dari kalimat tersebut, yang berbeda dari jaringan syaraf tiruan (RNN) tradisional yang biasanya melihat kata-kata satu demi satu, atau dari model autoregresif seperti GPT yang secara internal menutupi token masa depan.

Model yang ada saat ini dapat memberikan wawasan yang berharga dan berfungsi sebagai titik awal yang berguna, tujuan utama kami di agri1.ai adalah untuk mengembangkan LLM khusus untuk pertanian. Kami percaya bahwa dengan melakukan hal tersebut, kami dapat membuat model yang lebih disesuaikan dengan kebutuhan industri pertanian dan dapat memberikan informasi yang lebih akurat dan relevan kepada pengguna kami.

Tetap Gesit: Perjalanan Terus Berlanjut

Dalam bidang AI yang berkembang pesat, pembelajaran dan adaptasi yang berkelanjutan adalah kuncinya. Perjalanan ini telah menjadi pengalaman belajar yang mendalam, khususnya bagi saya, Max.

Memahami cara-cara unik di mana pengguna berinteraksi dengan AI dalam konteks pertanian telah memberikan pencerahan dan instruktif. Setiap pertanyaan yang kami terima dari para petani di seluruh dunia memberikan wawasan yang tak ternilai tentang tantangan dunia nyata yang dapat diatasi oleh agri1.ai. Pendekatan kami bersifat berulang - kami mengamati interaksi pengguna, terlibat dalam dialog dengan pengguna, mengembangkan solusi, mengirimkannya, dan kemudian menilai kembali.

Siklus ini memungkinkan kami untuk terus menyempurnakan dan meningkatkan produk kami, memastikan produk kami tetap relevan dan berguna bagi pengguna kami. Kami sangat antusias dengan potensi peningkatan antarmuka pengguna (UI) dan pengalaman pengguna (UX) untuk lebih meningkatkan kegunaan agri1.ai. Laju perkembangan dalam dunia AI sangat menakjubkan, dengan model dan teknologi baru yang muncul secara teratur. Kami berkomitmen untuk terus mengikuti perkembangan ini, mengeksplorasi bagaimana kami dapat memanfaatkannya untuk meningkatkan agri1.ai dan melayani petani dan agribisnis dengan lebih baik di seluruh dunia.

Saya menyadari bahwa ini baru permulaan. Perjalanan agri1.ai adalah proses yang berkelanjutan, dan saya berkomitmen untuk terus belajar, beradaptasi, dan berkembang. Saya sangat antusias dengan potensi AI untuk mengubah pertanian, dan saya berterima kasih atas kesempatan untuk menjadi bagian dari perjalanan ini. Terima kasih telah bergabung dengan kami dalam petualangan ini.