農業におけるクロード、ラマ、chatGPTといったLLMSの世界へようこそ。農業における人工知能(AI)の可能性を探ることを目的とした取り組み、agri1.aiへようこそ。世界的な人口増加が続く中、効率的で持続可能な農業の実践がこれまで以上に求められている。膨大な量のデータを分析し、正確な予測を行う能力を持つAIは、この需要に応えるための画期的な手段となり得る。

はじめに
agri1.aiの現状
agri1.aiの未来と農業のためのドメイン固有大規模言語モデル
LLM オープンソースのアプローチとモデル
農学分野の既存のLLM

はじめに

agri1.ai私たちは、農業のためにAIの力を活用するために、2つの側面からアプローチしています。一方では、既存の大規模言語モデル(LLM)を使用するフロントエンドインターフェースを開発し、それを微調整し、埋め込み、公共および内部データとの文脈付けを行います。また、農業に特化した独自のLLMを作成する可能性を探っています。

気候も市場も急速に変化する環境において、アグリ1.aiのコンセプトはますます重要になっている。これは特に、大規模な農業主導の社会やアフリカ大陸のような地域に当てはまり、知識の不足が農業における重大な課題につながる可能性がある。agri1.aiの使命のひとつは、このような問題に取り組むことであり、急速に変化する気候条件と闘う零細農家を支援し、気候や土壌の条件に応じた新しい農業文化のためのより良いコンサルティングを提供することである。世界のある地域では教育が行き届いていないことも、私たちのイニシアチブを通じて農家を支援する動機となっています。

人間とAIのギャップを埋めるagri1.aiの現状

agri1.aiは、農業に携わる人間とAIソフトウェアやアルゴリズムの世界との橋渡しをするダイナミックなプラットフォームです。私たちの主な目標は、この2つのエンティティ間のシームレスな相互作用を促進し、農業の効率性と持続可能性を高める共生関係を育むことです。

現在のところ、 agri1.ai は、OpenAIのGPTという最先端の大規模言語モデル(LLM)の基盤の上で動作しています。私たちは、このモデルを一部改良し、農業に関連するテキストをよりよく理解し、生成するように微調整し、ユーザーにとっての関連性と有用性を高めています。さらに、農業分野の文脈を理解するために、公開データと内部データの両方を統合したデータエンベデイングを部分的に組み込んでいます。

AIの領域では、しばしばシンプルさが成功の鍵になります。AIアプリケーションの構築と展開は複雑なプロセスになりがちですが、私たちはシンプルなオペレーションを維持することで、高品質で使いやすいサービスの提供に集中することができます。既存のホスト型LLMをベースに構築することで、合理的で効率的なシステムを維持しながら、高度なAIのパワーを活用することができます。

私たちの業務の基盤のひとつは、データガバナンスです。私たちは、ユーザーのデータの可用性、有用性、完全性、およびセキュリティを管理することの重要性を認識しています。データガバナンスに対するこの包括的なアプローチは、agri1.aiが提供する情報の信頼性と有用性を保証するだけでなく、規制遵守、プライバシー、品質、セキュリティなどの主要な懸念事項にも対処します。私たちは、農業関連企業がデータの漏洩や、LLMが内部データで訓練され、データ主権を損なう可能性について、正当な懸念を持っていることを理解しています。私たちは、このような懸念を真摯に受け止め、これらの問題に対処するための戦略に積極的に取り組んでいることを、ユーザーの皆様にお約束したいと思います。

agri1.aiの改良と強化を続ける中で、既存のLLMを再トレーニング、あるいは微調整することで新しいLLMを作成する可能性も模索しています。このアプローチにより、より農業に特化した効果的なモデルを作成できる可能性があります。

agri1.aiの未来:農業のためのドメイン特化型大規模言語モデル

私たちはagri1.aiでこれまでに達成したことを誇りに思っていますが、それだけにとどまりません。私たちは、農業のための独自のドメイン固有のLLMを作成する可能性も模索している。私たちがagriLLM(ワーキングタイトル)と呼んでいるこのモデルは、農業関連の大量のテキストデータで学習され、農業業界の言語とニュアンスのエキスパートになる。

agriLLMは、データ収集、データクリーニングと前処理、モデルの選択、モデルのトレーニング、微調整、評価とテスト、そして展開という複雑なプロセスを経て完成します。また、農業の各分野の専門家の協力を得て、詳細なトレーニングデータセットを構築し、モデルの微調整を行う予定です。

  1. データ収集:農業分野に特化したLLMを構築するための最初のステップは、その分野に関連する膨大な量のデータを収集することです。科学論文、研究論文、農業ガイド、天気予報、作物の収穫量データなど、さまざまなデータがあります。農業のあらゆる側面に精通したモデルを作るためには、農業に関する幅広いトピックをカバーするデータが必要です。ウェブスクレイピングのようなツールを使えば、さまざまなオンラインソースからのデータ収集プロセスを自動化することができます。
  2. データ前処理:データを収集したら、LLMを学習させるための前処理を行う必要があります。データのクリーニング(重複の除去、欠損や不正確な値の修正)、正規化(すべてのテキストを小文字に変換、句読点やストップワードの除去)、トークン化(テキストを個々の単語やフレーズに分解して言語モデルの語彙を作成)などを行う。
  3. モデルの選択と構成:次のステップは、LLMに適したモデル・アーキテクチャを選択することです。GPT-3やBERTのような変換器ベースのモデルは、長いテキスト列を扱い、高品質の出力を生成する能力があるため、よく選ばれています。層数、注目ヘッド、損失関数、ハイパーパラメータなどのモデル構成は、この段階で指定する必要がある。
  4. モデルトレーニング:次に、前処理されたデータに対してモデルを学習させます。この学習では、単語のシーケンスをモデルに提示し、シーケンス内の次の単語を予測するように訓練します。モデルは、予測した単語と実際の次の単語との差に基づいて重みを調整する。このプロセスは、モデルが満足のいく性能レベルに達するまで何百万回も繰り返されます。
  5. 評価と微調整:最初のトレーニングの後、モデルは別のテストデータセットで評価されます。評価結果に基づいて、モデルの微調整が必要になる場合があります。この場合、ハイパーパラメータの調整、アーキテクチャの変更、または性能向上のための追加データでのトレーニングが必要になる可能性があります。
  6. ドメイン固有のファインチューニング:LLMを農業分野に特化させるため、第1ステップで収集した農業分野に特化したデータで微調整を行います。これにより、農業分野特有の用語、文脈、ニュアンスをモデルが理解できるようになります。
  7. agri1.aiとの統合:ドメイン固有のLLMの準備ができたら、agri1.aiシステムと統合する。これには、agri1.aiが新しいLLMの機能を活用できるように、必要なAPIとインターフェースを設定することが含まれる。
  8. ユーザーテストとフィードバック:更新されたagri1.aiシステムは、エンドユーザーによってテストされます。彼らのフィードバックは収集され、問題点や改善点を特定するために使用されます。
  9. 継続的な改善:ユーザーからのフィードバックに基づき、LLMは継続的に更新・改善されます。これは、さらなる微調整、トレーニングセットへのデータの追加、モデルアーキテクチャの調整などを含みます。
  10. モニタリングとメンテナンス:最後に、LLMが正確で有用な出力を提供していることを確認するために、LLMのパフォーマンスを継続的に監視しています。また、定期的なメンテナンスも行い、システムのスムーズな稼働を維持しています。

農業のためのドメインに特化したLLMを構築することは、複雑ではあるが達成可能なタスクである。データの収集から継続的な改善まで、一連のステップを踏む必要があります。このプロセスに従うことで、農業業界のユーザーに正確で適切、かつ有用な情報を提供できるLLMを開発することを目指します。

オープンソースのアプローチとモデル

私たちは、より広いAIコミュニティーの動向を注視しています。私たちが特に有用だと感じているリソースのひとつが LMSYSリーダーボードこのリーダーボードでは、様々なLLMをそのパフォーマンスに基づいてランク付けしています。このリーダーボードに掲載されているモデルの中には、OpenAIのGPT-4やAnthropicのClaude-v1など、agriLLMの基盤として利用できる可能性のあるものがあります。

しかし、プロプライエタリモデルとオープンソースモデルの間にはギャップがあることも認識しています。現在、GPT-4のようなプロプライエタリなモデルがリードしていますが、私たちはオープンソースのモデルが追いつく可能性があると楽観視しています。MosaicMLは、機械学習モデルのための柔軟でモジュール化されたプラットフォームを提供しており、私たちのLLMを訓練するために使用できる可能性があります。

モザイクエムエル は、agriLLMの開発に有益と思われる様々な機能を提供しています。数十億パラメータのモデルを数日ではなく数時間でトレーニングすることができ、大規模なスケールでも効率的にスケーリングすることが可能です。また、自動的な性能強化も可能で、ユーザーは効率性の最先端を行くことができます。MosaicMLのプラットフォームは、1つのコマンドで大規模な言語モデルのトレーニングをサポートし、ノード障害や損失スパイクからの自動再開を提供します。これは、agriLLMのような大規模モデルに伴う長いトレーニング時間に対して特に有用であると考えられます。

農学分野の既存のLLM

私たちの研究では、農業に特化したモデル、AgricultureBERTと名付けられた、SciBERTのチェックポイントからさらに事前訓練されたBERTベースの言語モデルに出会いました。このモデルは、農業分野の科学的な作品と一般的な作品からなるバランスのとれたデータセットで訓練され、農業研究のさまざまな分野からの知識と実践的な知識を包含している。

AgricultureBERTの学習に使用したコーパスは、米国政府のNational Agricultural Library(NAL)の120万パラグラフと、農業領域の書籍や一般文献の530万パラグラフが含まれています。このモデルは、自己教師付き学習アプローチであるMasked Language Modeling (MLM)を用いて学習されました。このアプローチでは、入力文中の単語のうち15%をマスクし、マスクした単語をモデルに予測させます。このアプローチにより、モデルは文の双方向表現を学習することができ、通常、単語を次々に見る従来のリカレントニューラルネットワーク(RNN)や、将来のトークンを内部的にマスクするGPTのような自己回帰モデルとは異なる。

この既存のモデルは、貴重な洞察を提供し、有用な出発点として役立ちます。agri1.aiの最終的な目標は、農業のための独自のドメインに特化したLLMを開発することです。そうすることで、農業業界のニーズにさらに合わせたモデルを作成し、より正確で適切な情報をユーザーに提供できると考えています。

アジャイルに徹する:旅は続く

急速に進化するAIの分野では、継続的な学習と適応が重要です。この旅は、特に私、マックスにとって深い学びの場となりました。

農業の文脈でユーザーがAIと接するユニークな方法を理解することは、啓発的で有益なことです。私たちが世界中の農家から受け取る問い合わせのひとつひとつが、agri1.aiが対処できる現実世界の課題についての貴重な洞察を与えてくれます。私たちのアプローチは反復的です。ユーザーのやりとりを観察し、ユーザーと対話し、ソリューションを開発し、出荷し、そして再評価します。

このサイクルによって、私たちは常に製品を改良し、改善することができ、ユーザーにとって適切で有用な製品であり続けることができます。私たちは、agri1.aiの使いやすさをさらに向上させるためのユーザーインターフェース(UI)とユーザーエクスペリエンス(UX)の強化の可能性に興奮しています。AIシーンの開発ペースは目を見張るものがあり、定期的に新しいモデルやテクノロジーが登場しています。私たちは、これらの開発状況を常に把握し、agri1.aiを強化し、世界中の農家や農業関連企業により良いサービスを提供するために、どのように活用できるかを探求していきます。

これは始まりに過ぎないと認識しています。agri1.aiの旅は継続的なプロセスであり、私は学び、適応し、改善し続けることを約束します。私はAIが農業を変革する可能性に興奮しており、この旅の一部になれる機会に感謝しています。この冒険にご一緒いただき、ありがとうございます。

jaJapanese