Complete, end-to-end AI developer toolkit with evaluations, tracing and monitoring, scoring, human feedback, and guardrails supports entire generative AI workflow
LAS VEGAS--(BUSINESS WIRE)--Weights & Biases, the AI developer platform, today announced the general availability of W&B Weave at the AWS re:Invent annual conference. Weave helps developers evaluate, monitor, and iterate continuously to deliver high-quality and performant generative AI applications. Weave is a lightweight, developer-friendly toolkit that supports the entire generative AI workflow from experimentation to production and systematic iteration.
Since the emergence of large language models (LLMs) and their transformative potential, enterprises have been exploring ways to apply LLMs to improve their internal business operations and enhance how they serve their customers. While creating a generative AI demo can be easy, moving to full-scale production with high-quality and performant applications is hard because LLMs are non-deterministic by nature.
Because of this, a new experimental developer workflow is required—one that Weave is purpose-built to support. The core components of this workflow are:
- Evaluations: Without an evaluation framework developers are just guessing whether their generative AI application is improving its accuracy, latency, cost, and user experience. Weave offers rigorous, visual evaluations to move beyond vibe checks and spreadsheets. As developers try different techniques like prompt engineering, RAG (Retrieval Augmented Generation), agents, fine-tuning, and changing LLM providers, Weave evaluations help them understand which techniques improve their application. Weave allows developers to group evaluations into leaderboards featuring the best performers and share this learning across their organization. To evaluate models and prompts without jumping into code, Weave offers a playground to quickly iterate on prompts and see how the LLM response changes.
- Tracing and monitoring: With a single line of code, developers can use the Weave Python and JavaScript/TypeScript SDKs to automatically log all the inputs, outputs, code, and metadata in their applications at the granular level. As LLMs become multi-modal, Weave also supports images and audio in addition to text and code. Weave acts as an AI system of record, organizing all the data into a trace tree that developers easily navigate and analyze to debug issues. Customers need to monitor AI application quality in production but running scorers on production machines for monitoring can take too much processing power and disrupt live application performance. Weave online evaluations on live incoming production traces execute asynchronously without impacting the production environment, allowing developers to separate evaluations from core application processing. Weave online evaluations will be available in Q1.
- Scoring: Weave offers pre-built LLM-based scorers for common metrics like hallucination rate and context relevance so developers can jumpstart their evaluations without starting from scratch. For more advanced evaluations, developers can plug-in third party scorers or customize their own. Weave supports LLMs scoring other LLMs, known as LLM-as-a-Judge. Developers can fine-tune LLMs for the specific attributes they want to evaluate for their application and then use those scores in Weave.
- Human feedback: LLM-based scorers need to be augmented with human feedback for robust evaluations, especially for outputs that are qualitative such as style, tone, and brand voice. Weave lets developers collect feedback directly from users in production or their internal domain experts and use that feedback to build high-quality evaluation datasets. Users can give thumbs-up or thumbs-down ratings, add emojis to express their sentiment, and comment with free-form text. With the Weave annotation template builder, developers can tailor the labeling interface so labelers know which elements to focus on, ensuring consistent annotations while improving the efficiency and quality of datasets.
- Guardrails: Due to the non-deterministic nature of LLMs, AI can sometimes behave inappropriately or leak private data. Malicious actors may attempt to jailbreak the system or inject malicious prompts. Enterprises need to protect their brand and safeguard the user experience. Weave offers out-of-the-box filters to detect these harmful outputs and prompt attacks. Once an issue is detected, pre and post hooks help trigger safeguards. Weave guardrails will be available in preview in Q1 next year.
"We've been working with customers for a year building Weave based on their feedback on the challenges of getting LLM powered applications into production," said Lukas Biewald, CEO and co-founder at Weights & Biases. "We focused on making it easy for developers to get started with one line of code that traces all your LLM calls, use pre-built scorers or customize your own, and then quickly be able to iterate guided by rich visual evaluations to improve the accuracy, latency, cost, and user experience of their application. We're excited to now make Weave generally available to all developers, whether they are developing internal text-based applications for their employees or high volume production applications incorporating rich media for their customers."
"I love Weave for a bunch of reasons and it all goes back to trust," said Mike Maloney, CDO and co-founder at Neuralift AI. "From day one the reporting on all our input json and input tokens in Weave was fantastic, and now they have added features such as rich evaluation visualizations. Weave has helped us set a baseline for how the different LLM providers perform for our application and guide us on whether to switch the underlying model. Weave is featured heavily in how we aim to continuously build a high quality applied AI product."
Weave is framework and LLM agnostic so developers do not need to write any code to work with popular AI frameworks and LLMs, including Amazon Bedrock. To learn more about how to use Weave with Amazon Bedrock to evaluate LLMs for a text summarization use case, visit this tutorial. Weave is now generally available both as a multi-tenant SaaS Cloud deployment option or as a single-tenant AWS Dedicated Cloud deployment option for enterprises with sensitive use cases requiring data residency, compute and storage isolation, private connectivity, and data-at-rest encryption.
To learn more about Weave's ability to deliver generative AI applications with confidence for the enterprise, visit Weights & Biases at Booth #1520 on the AWS re:Invent Expo floor from December 2-5 or . Developers can get started with a single line of code at and start tracing their AI applications immediately.
About Weights & Biases
Weights & Biases is the AI developer platform powering the generative AI industry. Over 1,300 organizations worldwide — including AstraZeneca, Canva, NVIDIA, Snowflake, Square, Toyota, and Wayve — and more than 30 foundation model builders, such as OpenAI, Meta, and Cohere, rely on Weights & Biases as their system of record for training and fine-tuning AI models and developing AI applications with confidence. Headquartered in San Francisco with a global presence, Weights & Biases is backed by leading investors, including Coatue, Felicis Ventures, BOND, Insight Partners, Bloomberg Beta, and NVIDIA.
Contacts pr@wandb.com
評価、トレース、モニタリング、スコアリング、人間のフィードバック、ガードレールを備えた完全なエンドツーエンドの人工知能開発者ツールキットは、生成的人工知能のワークフロー全体をサポートします。
ラスベガス--(ビジネスワイヤ)--AI開発者プラットフォームのWeights & Biasesは、本日、AWS re:Invent年次会議でW&b Weaveの一般提供を発表しました。Weaveは、開発者が高品質で性能の良い生成的人工知能アプリケーションを提供するために、評価、モニタリング、継続的な反復を行うのに役立ちます。Weaveは、実験から生産、体系的な反復まで、生成的人工知能のワークフロー全体をサポートする軽量で開発者に優しいツールキットです。
大規模言語モデル(LLM)の出現とその変革的な可能性以来、企業は内部ビジネスオペレーションを改善し、顧客に対してどのようにサービスを提供するかを向上させるためにLLMを適用する方法を模索しています。生成的人工知能デモの作成は容易ですが、高品質で性能の良いアプリケーションでのフルスケール生産への移行は難しいです。なぜなら、LLMは本質的に非決定的であるからです。
このため、新しい実験的な開発者ワークフローが必要です。Weaveは、それをサポートするように設計されています。このワークフローのコア部品は次のとおりです:
- 評価:評価フレームワークがなければ、開発者は自分の生成的人工知能アプリケーションが精度、レイテンシ、コスト、ユーザー体験を改善しているかどうかを推測するだけです。Weaveは、雰囲気チェックやスプレッドシートを超える厳密で視覚的な評価を提供します。開発者がプロンプトエンジニアリング、RAG(リトリーバル・オーグメンテッド・ジェネレーション)、エージェント、ファインチューニング、LLMプロバイダーの変更などの異なる技術を試す際に、Weaveの評価はどの技術がアプリケーションを改善するかを理解するのに役立ちます。Weaveは、評価をグループ化して最も優れたパフォーマーを特徴とするリーダーボードを作成し、この学びを組織内で共有することを可能にします。モデルとプロンプトを評価するためにコードに飛び込むことなく、Weaveはプロンプトを迅速に反復し、LLMの応答がどのように変化するかを確認できるプレイグラウンドを提供しています。
- トレースとモニタリング:1行のコードで、開発者はWeaveのPythonおよびJavaScript/TypeScript SDKを使用して、自分のアプリケーションのすべての入力、出力、コード、およびメタデータを詳細レベルで自動的にログすることができます。LLMがマルチモーダルになるにつれ、Weaveはテキストやコードに加えて画像や音声もサポートします。Weaveは記録の人工知能システムとして機能し、すべてのデータをトレースツリーに整理し、開発者が問題をデバッグするために簡単にナビゲートし、分析できるようにします。顧客は生産上のAIアプリケーションの品質を監視する必要がありますが、生産機械でスコアリングを実行することは、処理能力を過度に消費し、ライブアプリケーションのパフォーマンスに影響を与える可能性があります。Weaveのオンライン評価は、実行中の生産トレースに対して非同期に実行され、生産環境に影響を与えず、開発者が評価をコアアプリケーションの処理から分離できるようにします。Weaveのオンライン評価は、第1四半期に提供される予定です。
- スコアリング: Weaveは、開発者がゼロから始めることなく評価を迅速に開始できるように、幻覚率やコンテキストの関連性などの一般的なメトリックのための事前構築されたLLmベースのスコアラーを提供しています。よりadvancedな評価のために、開発者はサードパーティのスコアラーを接続するか、自分自身のものをカスタマイズできます。WeaveはLLMが他のLLMを評価すること、つまりLLm-as-a-Judgeをサポートしています。開発者は、アプリケーションのために評価したい特定の属性に対してLLMを微調整し、そのスコアをWeaveで使用できます。
- 人間のフィードバック: LLmベースのスコアラーは、特にスタイル、トーン、ブランドボイスなどの定性的な出力に対して堅牢な評価を行うために、人間のフィードバックで補強する必要があります。Weaveは、開発者がプロダクション中のユーザーや内部ドメインの専門家からフィードバックを直接収集し、そのフィードバックを使用して高品質な評価データセットを構築できるようにします。ユーザーは、賛成または反対の評価を与えたり、感情を表現するために絵文字を追加したり、自由形式のテキストでコメントをつけたりできます。Weaveの注釈テンプレートビルダーを使用すると、開発者はラベリングインターフェースを調整できるため、ラベラーは注目すべき要素を知り、一貫した注釈を保証しつつ、データセットの効率と品質を向上させることができます。
- ガードレール: LLMの非決定的な特性のため、AIは時として不適切に振る舞ったり、プライベートデータを漏らすことがあります。悪意のある行為者がシステムを脱獄しようとしたり、悪意のあるプロンプトを注入しようとする場合があります。企業はブランドを保護し、ユーザーエクスペリエンスを守る必要があります。Weaveは、これらの有害な出力やプロンプト攻撃を検出するためのアウト・オブ・ザ・ボックスフィルターを提供します。問題が検出されると、事前および事後のフックが保護手段をトリガーするのに役立ちます。Weaveのガードレールは、来年の第1四半期にプレビューで提供される予定です。
"私たちは、LLm駆動のアプリケーションをプロダクションに投入する際の課題に関する顧客のフィードバックに基づいてWeaveを構築するために1年間取り組んできました。"とWeights & BiasesのCEO兼共同創設者であるルーカス・ビエワルドは述べています。"私たちは、開発者がすべてのLLm呼び出しを追跡する1行のコードで簡単に始められるようにし、事前構築されたスコアラーを使用するか、自分自身のものをカスタマイズし、豊富な視覚評価に導かれて迅速に反復できるようにし、アプリケーションの精度、レイテンシ、コスト、ユーザーエクスペリエンスを向上させるようにしました。全ての開発者にWeaveを一般提供できることを嬉しく思います。彼らが従業員のための内部テキストベースのアプリケーションを開発しているのか、顧客のためにリッチメディアを組み込んだ高ボリュームのプロダクションアプリケーションを開発しているのかにかかわらず。"
「Weaveを愛する理由はたくさんあり、すべてはtrustに帰着します」とNeuralift AIのCDO兼共同創設者であるマイク・マロニーは言いました。「初日からWeaveでのすべての入力JSONや入力トークンに関する報告は素晴らしかったですし、今では豊富な評価可視化などの機能が追加されました。Weaveは、私たちのアプリケーションに対するさまざまなLLMプロバイダーのパフォーマンスの基準を設定し、基盤となるモデルを交換機するかどうかを導く手助けをしてくれました。Weaveは、私たちが高品質な応用人工知能製品を継続的に構築する方法において注目されています。」
WeaveはフレームワークおよびLLMに依存しないため、開発者はアマゾンドットコムのBedrockを含む人気の人工知能フレームワークやLLMと連携するためにコードを書く必要がありません。Weaveを使用してアマゾンドットコムのBedrockでLLMをテキスト要約のユースケースで評価する方法について詳しく学ぶには、このチュートリアルをご覧ください。Weaveは現在、データの居住地、計算およびストレージの隔離、プライベート接続、データの暗号化を必要とする企業向けに、マルチテナントsaasクラウド展開オプションまたはシングルテナントAWS専用クラウド展開オプションとして一般に提供されています。
Weaveが企業向けに自信を持って生成的人工知能アプリケーションを提供する能力について詳しく学ぶには、12月2日から5日までのAWS re:Invent Expoのブース#1520でWeights & Biasesを訪問してください。開発者は1行のコードから始めて、すぐに自分の人工知能アプリケーションのトレースを開始できます。
Weights & Biasesについて
Weights & Biasesは、生成的人工知能業界を支えるAI開発者プラットフォームです。アストラゼネカ、canva、エヌビディア、スノーフレーク、スクエア、トヨタ、Wayveを含む1,300以上の組織が、OpenAI、Meta、Cohereなどの30以上のファンデーションモデルビルダーと共に、AIモデルのトレーニングとファインチューニング、信頼を持った人工知能アプリケーションの開発のための記録システムとしてWeights & Biasesを信頼しています。サンフランシスコに本社を置き、グローバルに展開しているWeights & Biasesは、Coatue、Felicis Ventures、債券、Insight Partners、Bloomberg Beta、エヌビディアなどの主要な投資家から支援されています。
連絡先
pr@wandb.com