NFT-TIMES > AIビジネスニュース > MetaとSnowflake Cortex AIが新型フラッグシップモデルのホスト最適化を展開

MetaとSnowflake Cortex AIが新型フラッグシップモデルのホスト最適化を展開

NFT-TIMES 長尾英太公開2024.08.02 AIビジネスニュース

MetaとSnowflake Cortex AIが新型フラッグシップモデルのホスト最適化を展開

多言語オープンソース大規模言語モデルのLlama 3.1をSnowflakeとMetaがホスト、AIアプリケーションの簡便化を実現

AIデータクラウド企業であるSnowflakeは、多言語オープンソース大規模言語モデル（LLM）であるLlama 3.1コレクションをエンタープライズ向けSnowflake Cortex AIにホスト予定と発表。これは、強力なAIアプリケーションの大規模な利用・構築を助ける取り組みの一環で、このホスティングにはMetaから提供される強力なオープンソースLLM「Llama 3.1 405B」も含まれる。SnowflakeのAIリサーチチームは、推論とファインチューニングに対してLlama 3.1 405Bを最適化し、エンドツーエンド遅延時間を削減、スループットを増加させながら、リアルタイム推論を可能にする。また、大規模モデルのファインチューニングを単一のGPUノードのみで処理可能にし、開発者とユーザーにとっての複雑さを解消する。

この記事の要約

AIデータクラウドのSnowflakeとMetaが、多言語オープンソース大規模言語モデルLlama 3.1のホスティングを計画。
SnowflakeのAIリサーチチームは、推論とファインチューニングを最適化し、リアルタイム推論を可能にして、AIアプリケーションの大規模利用・構築を容易にする。
単一のGPUノードで大規模モデルのファインチューニングを可能にし、開発者とユーザーのタスクを簡素化する。

116784-26-fc5afb42a05e2bc731c9369dc6b025e7-1600x666-2 — Snowflake AIリサーチチームは、オープンソースコミュニティとのコラボレーションにおいて、大規模なLLM推論およびファインチューニングシステムスタックを立ち上げました。これにより、Llama 3.1 405Bのようにパラメーター数が数千億にもおよぶモデルに向けたオープンソース推論およびファインチューニングシステムを対象とする最先端のソリューションを新たに構築します。

※本報道資料は米国スノーフレイク社が7月23日に発表した内容の抄訳です。

AIデータクラウド企業であるSnowflake（ニューヨーク証券取引所：SNOW）は本日、多言語オープンソース大規模言語モデル（LLM）であるLlama 3.1コレクションをエンタープライズ向けSnowflake Cortex AIにホスト予定であると発表しました。これは、強力なAIアプリケーションの大規模な利用および構築を容易にすることを目的としています。

この取り組みにはMetaの提供する最大規模かつ最も強力なオープンソースLLMであるLlama 3.1 405Bが含まれており、リアルタイムかつ高スループットな推論の実現および強力な自然言語処理アプリケーションおよび生成アプリケーションのさらなる民主化を目的とした推論システムスタックの開発およびオープンソース化もSnowflakeにより実施されます。業界をリードするSnowflake AIリサーチチームは推論とファインチューニングの両方に対してLlama 3.1 405Bを最適化し、導入初日から12万8000トークンもの、ばく大なコンテキストウィンドウをサポートしながら、既存のオープンソース型ソリューションよりも最大で3分の1に削減されたエンドツーエンド遅延と1.4倍に増加したスループットを特徴とするリアルタイム推論を実現します。さらに、単一のGPUノードを使うだけで大規模モデルをファインチューニング可能なため、Cortex AI内ですべてを処理できるようになり、各種のコスト問題や開発者とユーザーが感じる複雑さを解消してくれます。

SnowflakeはMetaとの協力によって、基礎段階から信頼できる安全な組み込みを目指した包括的アプローチをとり、Metaの最新モデルにお客様が簡単で効率的かつ信頼性の高い方法でシームレスにアクセスし、ファインチューニングやAIデータクラウドへのデプロイを実施できるようにしていきます。

SnowflakeでAIエンジニアリング部門のバイスプレジデントを務めるVivek Raghunathanは次のように述べています。

「Snowflakeが擁する世界トップクラスのAIリサーチチームは、エンタープライズやオープンソースコミュニティが効率を最大化できる形で推論やファインチューニングにLlama 3.1 405Bなどの最先端オープンモデルを利用する方法を見つけ出そうと、未踏の地を進んでいます。単に、Snowflake Cortex AIを通じてMetaの最先端モデルを直接お客様にお届けすることを目指しているわけではありません。我々は新たな研究、12万8000トークンのコンテキストウィンドウをサポートするオープンソースコード、マルチノードによる推論、パイプライン並列処理、8ビット浮動小数数の量子化などによってエンタープライズおよびAIコミュニティを強化し、より広範なエコシステムにおけるAIの進歩を目指します」

業界をリードするSnowflake AIリサーチチームによって、最高クラスの速度とメモリ効率を発揮するオープンソースの推論およびファインチューニングを実現する道が開かれる
Snowflake AIリサーチチームは、AIコミュニティに対する日頃からの貢献や最先端LLMテクノロジーの構築方法に関する透明性を保つことによって、オープンソースにおけるイノベーションの限界を超えようと取り組み続けています。Snowflake AIリサーチチームはLlama 3.1 405Bの提供開始と並行して、大規模なLLM推論およびファインチューニングシステムに関する最適化スタックのオープンソース化を進めています。この取り組みは、DeepSpeed、Hugging Face、vLLMなどの広範なAIコミュニティと共同で進めています。今回の画期的な技術発展により、パラメーター数が数千億にもおよぶモデルに向けたオープンソース推論およびファインチューニングシステムを対象とする最先端のソリューションが新たに構築されます。

非常に大きなモデル規模やメモリに関する要件の存在は、リアルタイムのユースケースにおける低遅延の推論、費用対効果の高い高スループット、さまざまなエンタープライズ級の生成AIユースケースを対象とした長尺コンテキストのサポートを実現することを目指すユーザーにとってはかなりの難題となります。モデルや起動状態を格納するメモリの要件もまた、ファインチューニングを非常に困難なものにしています。トレーニング用のモデル状態を適合させるために必要となる大規模GPUクラスターは、データサイエンティストには手が届かないことが珍しくありません。

Snowflakeの大規模なLLM推論およびファインチューニングシステム最適化スタックは、こうした課題に対処するものです。Snowflakeは高度並列処理技術とメモリ最適化を使用することで、高速かつ効率的なAI処理を、複雑で高価なインフラストラクチャを必要とすることなく実現します。SnowflakeのシステムスタックはLlama 3.1 405Bについて、単一のGPUノードのみでリアルタイムかつ高スループットの性能を実現すると同時に、マルチノード環境全体で12万8000トークンものばく大なコンテキストウィンドウをサポートします。このような柔軟性は次世代ハードウェアとレガシーハードウェアの双方にもたらされるため、利用できる企業の幅がより広がります。またデータサイエンティストは、わずかな数のGPUで精密技術を組み合わせて使うことでLlama 3.1 405Bをファインチューニングできるため、大規模なGPUクラスターが不要となります。その結果、各組織は強力なエンタープライズ級生成AIアプリケーションを簡単で効率的かつ安全に適合してデプロイできるようになります。

Snowflake AIリサーチチームは他にも、モデル蒸留、安全対策、検索拡張生成（RAG）、合成データ生成に最適化されたインフラストラクチャも開発しました。これによって、エンタープライズがCortex AI内でこうしたユースケースの利用を開始しやすくなります。

信頼性の高い責任あるAIの実現に向けた取り組みをSnowflake Cortex AIが深化させる
AIの安全性はSnowflakeとお客様にとって最も重要なことです。このため、SnowflakeはSnowflake Cortex Guardの一般提供を行い、Metaの最新モデルあるいはAI21 Labs、Google、Mistral AI、Reka、Snowflake自身など他の主要プロバイダーから入手可能なLLMを使用して、有害なコンテンツに対するLLMアプリケーションまたはCortex AIに組み込まれたアセットの防衛を強化します。Cortex GuardにはMetaのLlama Guard 2が活用されており、信頼性の高いエンタープライズ向けAIを生みだして使用モデルの安全性を確保できるようにします。

今回のニュースに対するSnowflakeのお客様やパートナーの感想
E15 Group、データプロダクト部門シニアディレクター、Dave Lindley氏：

「接客業界のリーダーとして、当社のVoice of the Customer（お客様の声）プラットフォーム内の重要トピックに関する理解を深めて定量化するために生成AIを利用しています。業界をリードするMetaのLlamaモデルにSnowflake Cortex AIからアクセスできるようになれば、データが意味するところをより上手く汲み取り、事業に変化をもたらすために必要な分析情報を集められるようになるでしょう。当社のオペレーションにおいてお客様の活きたフィードバックに基づいてリアルタイムに行動を起こせるよう、Llamaをファインチューニングして試験できる日が来るのを心待ちにしています」

Hakkoda、AIリーダー、Ryan Klapper氏：

「生成AI活用の話題において、安全と信頼は企業に絶対必要なものです。Snowflakeは、業界をリードする大規模言語モデルでイノベーションを起こして大規模に活用するために我々が必要とする自信を与えてくれます。Snowflake Cortex AI内で動作するMetaのLlamaモデルという強力な組み合わせにより、RAGベースの内部アプリケーションを提供する機会がより多く得られるでしょう。ステークホルダーはこうしたアプリケーションにより、幅広い内部ナレッジベースとシームレスに連携できるようになり、それによって正確で関連性の高い情報をいつでも必要なときに利用できる状態が確保されます」

Matillion、CEO兼共同創業者、Matthew Scullion氏：

「Snowflake Cortex AI内でMetaのLlamaモデルを活用することで、当社のお客様が最新のオープンソースLLMを利用できるようになります。当社のチームとユーザーは間もなく追加されるLlama 3.1により、ユースケースに最適な大規模言語モデルを利用する際の選択肢と柔軟性を高めて最先端のAIイノベーションを維持できるようになります。Snowflake Cortex AI内のLlama 3.1は、Snowflakeによる提供開始後すぐにMatillionで利用可能となります」

Twilio Segment、プロダクト&テクノロジー戦略部門バイスプレジデント、Kevin Niparko氏：

「顧客エンゲージメントおよび顧客データプラットフォーム分野のリーダーとして、Twilioのお客様は、適切な受け手に対する適切なメッセージを適切なタイミングで作成するために、適切なデータにアクセスする必要があります。Snowflake Cortex AI内でユースケースに適したモデルを選択できるようになれば、当社とSnowflakeに共通のお客様はAI主導のインテリジェントな分析情報を生成し、それを下流のツールで簡単に活用できます。急速に進化する時代において、企業は一元化されたデータセットを迅速に反復処理することで最良の結果を生み出す必要があるのです」

詳細情報：

エンタープライズのお客様で自社領域固有のユースケースにあわせたLlama 3.1 405Bの蒸留やSnowflake AIリサーチチームによる追加サポートに関心をお持ちの場合は、こちらのフォームをご記入ください。
Llama 3.1 405BとSnowflake Cortex AIの利用開始方法については、こちらのクイックスタートガイドでより詳しくご確認いただけます。
こちらのブログ記事では、Snowflake Cortex AI内でLlama 3.1 405Bを利用するために開発者がとれるさまざまな方法を確認できます。
Snowflake AIリサーチチームが数千億ものパラメーター数を持つ大規模モデルをファインチューニングしながら効率的で費用対効果の高い推論を実現する方法について、技術的に詳しく掘り下げてみましょう。
Snowflake AIリサーチチームが生み出す継続的イノベーションについて学習し、AI Research hubでAIの未来を切り拓く専門家の話を聞きましょう。
LinkedInおよびX（Twitter）でSnowflakeの最新ニュースやお知らせをご確認ください。

Snowflakeについて

Snowflakeは、シンプルかつ効率的で信頼性の高いエンタープライズAIを実現します。SnowflakeのAIデータクラウドは、世界最大規模の数百の企業を含む世界中の数多くのお客様に利用されており、データ共有、AIによるビジネスの強化に貢献しています。これからは、エンタープライズAIの時代です。詳しくは、snowflake.com/ja/（ニューヨーク証券取引所：SNOW）をご覧ください。

このプレスリリースには、明示または黙示を問わず、（i）Snowflakeの事業戦略、（ii）開発中または一般に提供されていないSnowflakeの製品、サービス、テクノロジー、（iii）市場の拡大、トレンド、競争状況に関する考察、（iv）Snowflake製品とサードパーティプラットフォームの統合およびサードパーティプラットフォーム上でのSnowflake製品の相互運用性と可用性についての言及など、将来の見通しに関する記述が含まれています。これらの将来の見通しに関する記述は、さまざまなリスク、不確実性、前提に左右されます。これには、Snowflakeが証券取引委員会に提出するForm 10-Q（四半期レポート）やForm 10-K（年次レポート）内の「リスク要因」などのセグメントに記載されているリスク、不確実性、前提が含まれます。これらのリスク、不確実性、前提を考慮すると、将来の見通しに関する記述において予想または暗示されている結果と比較して、実際には大きく異なる結果や反対の結果に至る可能性があります。これらの記述は、初回記述日の時点に限った記述であり、かかる記述の時点で入手可能な情報に、および/または経営陣がかかる時点で抱いていた誠実な信念に、基づいています。法律で義務付けられている場合を除き、Snowflakeには、本プレスリリース内の記述を更新する義務または意図は、一切ありません。そのため、将来の見通しに関するいかなる記述も、未来の出来事についての予測として利用してはなりません。

© 2024 Snowflake Inc All rights reserved. Snowflake、Snowflakeのロゴ、および本書に記載されているその他すべてのSnowflakeの製品、機能、サービス名は、米国およびその他の国におけるSnowflake Inc.の登録商標または商標です。本書で言及または使用されているその他すべてのブランド名またはロゴは、識別目的でのみ使用されており、各所有者の商標である可能性があります。 Snowflakeが、必ずしもかかる商標所有者と関係を持ち、または出資や支援を受けているわけではありません。

記事選定／ライター

NFT-TIMES 長尾英太

ブロックチェーン技術記者、長尾といいます。ブロックチェーンについては投資／投機的な観点よりも、技術として未来の社会でどのように取り込まれていくかを中心に発信したいです。最近ではNFTやメタバースなどに注目しています。 1989年11月7日千葉出身。大学卒業後IT企業に入社。2017年にブロックチェーンの技術ライターとして独立。 Twitter