agri1.ai: A Two-Sided Approach to LLMs, chatGPT in Agriculture - Frontend & Embedding en Domain-Specific Large Language Model for Agriculture

Welkom in de wereld van LLMS zoals Claude, Llama en chatGPT in de landbouw, welkom bij agri1.ai, een initiatief dat het potentieel van kunstmatige intelligentie (AI) in de landbouwsector wil verkennen. Omdat de wereldbevolking blijft groeien, is de vraag naar efficiënte en duurzame landbouwmethoden dringender dan ooit. AI, met zijn vermogen om enorme hoeveelheden gegevens te analyseren en nauwkeurige voorspellingen te doen, kan een game-changer zijn om aan deze vraag te voldoen.

Inleiding
Huidige status van agri1.ai
De toekomst van agri1.ai & domeinspecifiek groot taalmodel voor de landbouw
LLM Open Source benaderingen en modellen
Bestaande LLM's in landbouw

Inleiding

Met agri1.aiWe hanteren een tweezijdige aanpak om de kracht van AI in te zetten voor de landbouw. Enerzijds ontwikkelen we een frontend interface die gebruik maakt van een bestaand Large Language Model (LLM), dat we verfijnen, inbedden en contextualiseren met openbare en interne gegevens. Anderzijds onderzoeken we de mogelijkheid om ons eigen domeinspecifieke LLM voor landbouw te creëren.

In snel veranderende omgevingen, zowel qua klimaat als qua markten, wordt het concept van agri1.ai steeds belangrijker. Dit geldt vooral voor grote, door landbouw gedreven samenlevingen en regio's zoals het Afrikaanse continent, waar een gebrek aan kennis kan leiden tot grote uitdagingen binnen de landbouw. Een van de missies van agri1.ai is om deze problemen aan te pakken, door kleine boeren te ondersteunen in hun strijd met snel veranderende klimatologische omstandigheden en door beter advies te geven over nieuwe landbouwculturen, afhankelijk van klimatologische en bodemomstandigheden. Het gebrek aan onderwijs in bepaalde delen van de wereld is ook een motivatie voor ons om boeren te ondersteunen via ons initiatief.

De huidige staat van agri1.ai: de kloof tussen mens en AI overbruggen

In het hart van ons initiatief dient agri1.ai als een dynamisch platform dat de kloof overbrugt tussen mensen in de landbouw en de wereld van AI-software en algoritmen. Ons belangrijkste doel is het faciliteren van een naadloze interactie tussen deze twee entiteiten, waardoor een symbiotische relatie ontstaat die de efficiëntie en duurzaamheid van landbouwpraktijken verbetert.

Op dit moment, a gri1.ai werkt op basis van OpenAI's GPT, een geavanceerd Large Language Model (LLM). Wij hebben dit model gedeeltelijk aangepast en verfijnd om landbouwgerichte tekst beter te begrijpen en te genereren, waardoor de relevantie en bruikbaarheid ervan voor onze gebruikers wordt vergroot. Bovendien hebben we gedeeltelijk gegevensinbedding toegevoegd, waarbij zowel openbare als interne gegevens zijn geïntegreerd, om het contextuele begrip van het landbouwdomein te vergroten.

Op het gebied van AI is eenvoud vaak de sleutel tot succes. Het bouwen en implementeren van AI-toepassingen kan een complex proces zijn, en door een gevoel van eenvoud in onze activiteiten te behouden, kunnen we ons richten op het leveren van een hoogwaardige, gebruiksvriendelijke service. Door voort te bouwen op een bestaande, gehoste LLM, kunnen we de kracht van geavanceerde AI benutten terwijl we een gestroomlijnd en efficiënt systeem behouden.

Een van de hoekstenen van onze activiteiten is gegevensbeheer. We erkennen het cruciale belang van het beheer van de beschikbaarheid, bruikbaarheid, integriteit en veiligheid van de gegevens van onze gebruikers. Deze uitgebreide aanpak van data governance zorgt niet alleen voor de betrouwbaarheid en bruikbaarheid van de informatie die agri1.ai levert, maar richt zich ook op belangrijke zaken als naleving van regelgeving, privacy, kwaliteit en veiligheid. We begrijpen dat landbouwbedrijven zich zorgen maken over het lekken van gegevens en de mogelijkheid dat LLM's worden getraind op interne gegevens, waardoor de soevereiniteit van gegevens in gevaar komt. We willen onze gebruikers ervan verzekeren dat we deze zorgen zeer serieus nemen en actief werken aan strategieën om deze problemen aan te pakken.

Terwijl we agri1.ai verder verfijnen en verbeteren, onderzoeken we ook de mogelijkheid om een nieuwe LLM te maken door een bestaande LLM te hertrainen of te verfijnen. Met deze aanpak kunnen we mogelijk een meer gespecialiseerd en effectief model voor de landbouw maken.

De toekomst van agri1.ai: Domeinspecifiek groot taalmodel voor de landbouw

We zijn trots op wat we tot nu toe hebben bereikt met agri1.ai, maar daar laten we het niet bij. We onderzoeken ook de mogelijkheid om onze eigen domeinspecifieke LLM voor de landbouw te maken. Dit model, dat we agriLLM (werktitel) noemen, zou worden getraind op een grote hoeveelheid landbouwgerelateerde tekstgegevens, waardoor het een expert wordt in de taal en nuances van de landbouwindustrie.

Het creëren van agriLLM zal een complex proces zijn, met gegevensverzameling, gegevensopschoning en -voorbewerking, modelselectie, modeltraining, fine-tuning, evaluatie en testen, en toepassing. We zijn ook van plan deskundigen op verschillende landbouwgebieden in te schakelen om ons te helpen gedetailleerde trainingsdatasets samen te stellen en het model te verfijnen.

Gegevensverzameling: De eerste stap in het bouwen van een domeinspecifieke LLM voor landbouw omvat het verzamelen van een grote hoeveelheid gegevens die relevant zijn voor het vakgebied. Dit kunnen onder meer wetenschappelijke artikelen, onderzoekspapers, landbouwgidsen, weerberichten en gegevens over oogsten zijn. De gegevens moeten een breed scala aan onderwerpen binnen de landbouw bestrijken om ervoor te zorgen dat het model goed is afgerond en kennis heeft van alle aspecten van het vakgebied. Tools zoals web scraping kunnen worden gebruikt om het verzamelen van gegevens uit verschillende online bronnen te automatiseren.
Voorbewerking van gegevens: Zodra de gegevens zijn verzameld, moeten ze worden voorbewerkt om ze voor te bereiden op de training van de LLM. Dit omvat het opschonen van de gegevens (duplicaten verwijderen, ontbrekende of onjuiste waarden corrigeren), normaliseren (alle tekst omzetten in kleine letters, leestekens en stopwoorden verwijderen) en tokeniseren (de tekst opsplitsen in afzonderlijke woorden of zinnen om de woordenschat voor het taalmodel te creëren).
Modelkeuze en configuratie: De volgende stap is het kiezen van een geschikte modelarchitectuur voor de LLM. Op transformatoren gebaseerde modellen zoals GPT-3 en BERT zijn populaire keuzes omdat zij lange tekstsequenties aankunnen en hoogwaardige outputs genereren. De configuratie van het model, met inbegrip van het aantal lagen, aandachtskoppen, verliesfunctie en hyperparameters, moet in dit stadium worden gespecificeerd.
Modelopleiding: Het model wordt vervolgens getraind op de voorbewerkte gegevens. Hierbij wordt het model een reeks woorden voorgelegd en getraind om het volgende woord in de reeks te voorspellen. Het model past zijn gewichten aan op basis van het verschil tussen zijn voorspelling en het werkelijke volgende woord. Dit proces wordt miljoenen keren herhaald totdat het model een bevredigend prestatieniveau bereikt.
Evaluatie en verfijning: Na de initiële opleiding wordt het model geëvalueerd op een afzonderlijke testdataset. Op basis van de evaluatieresultaten kan het nodig zijn het model te verfijnen. Dit kan inhouden dat de hyperparameters worden aangepast, de architectuur wordt gewijzigd of dat het model op aanvullende gegevens wordt getraind om de prestaties te verbeteren.
Domeinspecifieke fijnafstemming: Om de LLM specifiek te maken voor de landbouw, wordt deze verfijnd aan de hand van de domeinspecifieke gegevens die in de eerste stap zijn verzameld. Dit helpt het model om de unieke terminologie, context en nuances van het landbouwdomein te begrijpen.
Integratie met agri1.ai: Zodra de domeinspecifieke LLM klaar is, wordt deze geïntegreerd met het agri1.ai systeem. Dit houdt in dat de nodige API's en interfaces worden opgezet zodat agri1.ai de mogelijkheden van de nieuwe LLM kan benutten.
Gebruikerstests en feedback: Het bijgewerkte agri1.ai systeem wordt vervolgens getest door eindgebruikers. Hun feedback wordt verzameld en gebruikt om eventuele problemen of verbeterpunten te identificeren.
Voortdurende verbetering: Op basis van feedback van gebruikers wordt de LLM voortdurend bijgewerkt en verbeterd. Dit kan verdere verfijning inhouden, het toevoegen van meer gegevens aan de trainingsset of het aanpassen van de modelarchitectuur.
Controle en onderhoud: Ten slotte worden de prestaties van de LLM voortdurend gecontroleerd om ervoor te zorgen dat de output nauwkeurig en nuttig is. Er wordt ook regelmatig onderhoud gepleegd om het systeem soepel te laten werken.

Het bouwen van een domeinspecifieke LLM voor de landbouw is een complexe maar haalbare taak. Het omvat een reeks stappen van gegevensverzameling tot voortdurende verbetering. Door dit proces te volgen, willen wij een LLM ontwikkelen die nauwkeurige, relevante en nuttige informatie kan verstrekken aan gebruikers in de landbouwsector.

Open Source benaderingen en modellen

We volgen de ontwikkelingen in de bredere AI-gemeenschap op de voet. Een bron die we bijzonder nuttig vinden is de LMSYS leaderboardwaarin verschillende LLM's worden gerangschikt op basis van hun prestaties. Sommige modellen op deze ranglijst, zoals OpenAI's GPT-4 en Anthropic's Claude-v1, kunnen mogelijk worden gebruikt als basis voor agriLLM.

Wij zijn ons echter ook bewust van de kloof tussen propriëtaire en open-source modellen. Terwijl propriëtaire modellen zoals GPT-4 momenteel aan de leiding gaan, zijn wij optimistisch over het potentieel van open-source modellen om de achterstand in te halen. Een dergelijk open-source model is MosaicML, dat een flexibel en modulair platform biedt voor modellen voor machinaal leren, en mogelijk kan worden gebruikt om onze eigen LLM te trainen.

MozaïekML biedt een reeks kenmerken die gunstig kunnen zijn voor de ontwikkeling van agriLLM. Het maakt de training van modellen met meerdere miljarden parameters mogelijk in uren, niet in dagen, en biedt efficiënte schaalbaarheid op grote schaal. Het biedt ook automatische prestatieverbeteringen, zodat gebruikers op het snijvlak van efficiëntie blijven. Het platform van MosaicML ondersteunt het trainen van grote taalmodellen op schaal met een enkele opdracht, en het biedt automatische hervatting na knooppuntstoringen en verliespieken, wat bijzonder nuttig kan zijn voor de lange trainingstijden die gepaard gaan met grote modellen zoals agriLLM.

Bestaande LLM's in landbouw

In ons onderzoek zijn we een specifiek model voor de landbouw tegengekomen, genaamd AgricultureBERT, een op BERT gebaseerd taalmodel dat verder is voorgetraind vanuit het checkpoint van SciBERT. Dit model werd getraind op een evenwichtige dataset van wetenschappelijke en algemene werken in het landbouwdomein, die kennis uit verschillende gebieden van landbouwonderzoek en praktische kennis omvat.

Het corpus dat is gebruikt om AgricultureBERT te trainen bevat 1,2 miljoen paragrafen uit de National Agricultural Library (NAL) van de Amerikaanse overheid en 5,3 miljoen paragrafen uit boeken en gewone literatuur uit het landbouwdomein. Het model werd getraind met behulp van de zelfondersteunde leerbenadering van Masked Language Modeling (MLM), waarbij 15% van de woorden in de inputzin wordt gemaskeerd en het model vervolgens de gemaskeerde woorden voorspelt. Dankzij deze aanpak leert het model een bidirectionele voorstelling van de zin, die verschilt van traditionele terugkerende neurale netwerken (RNN's) die de woorden gewoonlijk na elkaar zien, of van autoregressieve modellen zoals GPT die de toekomstige tokens intern maskeren.

Dit bestaande model kan waardevolle inzichten verschaffen en als nuttig startpunt dienen, maar ons uiteindelijke doel bij agri1.ai is om een eigen domeinspecifieke LLM voor de landbouw te ontwikkelen. We geloven dat we op die manier een model kunnen creëren dat nog beter is afgestemd op de behoeften van de landbouwsector en dat nog nauwkeurigere en relevantere informatie kan bieden aan onze gebruikers.

Keep It Agile: The Journey Continues

Op het snel evoluerende gebied van AI zijn voortdurend leren en aanpassen essentieel. Deze reis is een diepgaande leerervaring geweest, vooral voor mij, Max.

Het begrijpen van de unieke manieren waarop gebruikers omgaan met AI binnen de landbouwcontext is zowel verhelderend als leerzaam geweest. Elke vraag die we van boeren over de hele wereld krijgen, biedt inzichten van onschatbare waarde in de echte uitdagingen die agri1.ai kan aanpakken. Onze aanpak is iteratief: we observeren gebruikersinteracties, gaan de dialoog aan met gebruikers, ontwikkelen oplossingen, verzenden ze en evalueren ze opnieuw.

Dankzij deze cyclus kunnen we ons product voortdurend verfijnen en verbeteren, zodat het relevant en nuttig blijft voor onze gebruikers. We zijn enthousiast over de mogelijkheden van user interface (UI) en user experience (UX) verbeteringen om de bruikbaarheid van agri1.ai verder te verbeteren. Het tempo van de ontwikkelingen op het gebied van AI is adembenemend en er verschijnen regelmatig nieuwe modellen en technologieën. We willen op de hoogte blijven van deze ontwikkelingen en onderzoeken hoe we deze kunnen gebruiken om agri1.ai te verbeteren en boeren en agrobedrijven wereldwijd beter van dienst te zijn.

Ik besef dat dit nog maar het begin is. De reis van agri1.ai is een doorlopend proces en ik ben vastbesloten om te blijven leren, aanpassen en verbeteren. Ik ben enthousiast over het potentieel van AI om de landbouw te transformeren en ik ben dankbaar voor de kans om deel uit te maken van deze reis. Bedankt dat je ons wilt vergezellen op dit avontuur.