DataStax's AI Platform Enables Wikimedia Deutschland to Ingest and Embed 10 Million Wikidata Articles in Less Than 3 Days
SANTA CLARA, Calif.--(BUSINESS WIRE)--DataStax, a leading AI platform that helps companies and developers create more accurate AI applications with 60% reduced development time, today announced that Wikimedia Deutschland—the organization that supports German Wikipedia and develops Wikidata and Wikibase—is leveraging the DataStax AI Platform, built with NVIDIA AI, including NVIDIA NeMo Retriever and NIM microservices, to make Wikidata available to developers as an embedded vectorized database.
Wikidata serves all Wikipedia language versions as an integral linked open data platform, and is the largest collaborative knowledge graph for open editable and open accessible data in over 300 languages. The global community, which encompasses more than 24k volunteers, has contributed over 114 million entries to date. These entries are used by thousands of software developers in the open-source landscape. The shared goal of Wikimedia Deutschland and DataStax is to provide this data as an open accessible dataset of the world's knowledge available to the Open Source AI/ML Community. One of the key technical challenges was vector embedding such a large and constantly changing dataset such that it is always up to date for developers to use.
"WMDE plans to make Wikidata's data easily accessible for the Open Source AI/ML Community via an advanced vector search by expanding the functionality with fully multilingual models, such as Jina AI through DataStax's API portal, to semantically search up to 100 of the languages represented on Wikidata. To vector embed a large, massively multilingual, multicultural, and dynamic dataset is a hard challenge, especially for low-resource, low-capacity open source developers. With DataStax's collaboration, there is a chance that the world can soon access large subsets of Wikidata's data for their AI/ML applications through an easier-to-access method. Although only available in English for now, DataStax's solution provided a valuable initial experiment ~10x faster than our previous, on-premise GPU solution. This near-real-time speed will permit us to experiment at scale and speed by testing the integration of large subsets in a vector database aligned with the frequent updates of Wikidata," said Dr. Jonathan Fraine, Chief Technology Officer, Wikimedia Deutschland.
Developer efficiency is also key to Wikimedia Deutschland, as Wikidata is one of the world's largest open source knowledge graphs, and with the DataStax AI Platform on AWS, it was possible to ingest, process, and vector embed over 10 million entries in under 3 days. The vectorized data is certainly still available under free CC0 licence.
Vectorizing such an extensive dataset is highly complex, as each document requires resource-intensive embedding processes to support real-time search and accessibility. Traditional linear read/write operations cannot keep pace with the scale and speed Wikimedia Deutschland needs to make hundreds of thousands of daily updates by the global community instantly accessible to millions of users. As the world's foremost open source knowledge graph, Wikidata demands high-quality, real-time results for hundreds of updates each minute. With Astra DB's serverless Vectorize offering, hosted on AWS, and NVIDIA NeMo, the DataStax AI Platform provides the near-zero-latency and scalability needed to ensure Wikidata's vector database is always up to date, maintaining the reliability essential for serving Wikimedia's global audience.
"Our cooperation with DataStax and their approach has unlocked new capabilities and streamlined our processes, which will allow us to deliver faster and more accurate insights to our community," said Lydia Pintscher, Portfolio Lead for Wikidata, Wikimedia Deutschland. "DataStax offers a combination of scalability, ease of use, and advanced embedding models that supports and encourages the development of AI applications for the public good with open and high-quality data."
"We're thrilled to see Wikimedia Deutschland improving accessibility to the world's largest knowledge graph with our AI platform. The open source community is crucial as it can bring more common good and many new ideas and innovations to the digital world," said Ed Anuff, Chief Product Officer, DataStax.
Wikimedia Deutschland and DataStax plan to expand upon these initial projects, exploring capabilities like graphRAG to enhance search reliability further, and supporting up to hundreds of languages to improve accessibility. The combination of Astra DB's serverless model, powered by AWS, ensures Wikimedia Deutschland's infrastructure can flexibly grow with its data demands, solidifying its position as a global leader in open source AI-driven knowledge.
DataStax continues to offer AWS customers the latest innovations with our end-to-end AI development platforms, supporting developers from idea to production. Astra Vectorize simplifies and accelerates vector embeddings by handling embedding generation directly on Astra DB running on AWS, fully supporting Amazon Bedrock. Amazon Bedrock is also supported in DataStax Langflow, offering a drag-and-drop experience for AWS developers to test foundational models with real data. Support for Amazon Q is coming for Langflow, allowing users the low-code convenience for integration with AWS's AI-powered assistant. DataStax brings cost savings to AWS users by leveraging AWS Graviton processors, lowering operation costs and helping AWS users manage TCO.
About DataStax
DataStax is the company that helps developers and companies successfully create a bold new world through GenAI. We offer a one-stop generative AI stack with everything needed for a faster, easier, path to production for relevant and responsive GenAI applications. DataStax delivers a RAG-first developer experience, with first-class integrations into leading AI ecosystem partners, so we work with developers' existing stacks of choice. With DataStax, anyone can quickly build smart, high-growth AI applications at unlimited scale, on any cloud. Hundreds of the world's leading enterprises, including Audi, Bud Financial, Capital One, Skypoint, and many more rely on DataStax. Learn more at DataStax.com.
2024 DataStax Inc., All Rights Reserved. DataStax is a registered trademark of DataStax, Inc. and its subsidiaries in the United States and/or other countries.
About Wikimedia Deutschland
Wikimedia Deutschland is a non-profit organization with over 111,000 members and 180 employees that is committed to promoting freely available knowledge in the digital space. As the largest country representative of the international Wikimedia Movement, the organization promotes the volunteer communities of Wikipedia and other Wiki projects in Germany. Wikimedia Deutschland also develops free software and the free Wikidata database, and is involved in political and educational activities to promote free access to knowledge and data. Learn more at Wikimedia.de.
Contacts DataStax
Regan Schiappa
regan.schiappa@datastax.com
Wikimedia Deutschland
Zarah Ziadi
Zarah.ziadi@wikimedia.de
DataStaxの人工知能プラットフォームがWikimedia Deutschlandに、3日未満で1000万のWikidata記事を取り込み、埋め込むことを可能にします。
カリフォルニア州サンタクララ--(ビジネスワイヤ)--人工知能プラットフォームリーダーのDataStaxは、企業や開発者が開発時間を60%短縮し、より正確な人工知能アプリケーションを作成する手助けを提供しており、今日、ドイツ語版ウィキペディアを支援し、WikidataおよびWikibaseを開発している団体であるWikimedia Deutschlandが、NVIDIA人工知能を使用して構築されたDataStax人工知能プラットフォーム(NVIDIA NeMo RetrieverおよびNImマイクロサービスを含む)を活用し、Wikidataを開発者向けに組み込まれたベクトル化データベースとして利用できることを発表しました。
Wikidataは、すべてのWikipedia言語版に対して統合されたリンクドオープンデータプラットフォームとして機能し、300以上の言語で編集可能でアクセス可能なデータのための最も大きな共同知識グラフです。グローバルコミュニティは、24,000人以上のボランティアが参加しており、これまでに114,000,000件以上のエントリが寄稿されています。これらのエントリは、オープンソースの開発環境において数千人のソフトウェア開発者によって使用されています。Wikimedia DeutschlandとDataStaxの共通の目標は、このデータをオープンソース人工知能/機械学習コミュニティが利用できる世界知識のオープンアクセスデータセットとして提供することです。大きくかつ常に変化するデータセットをベクトル埋め込みし、開発者が常に最新のデータを使用できるようにすることは、重要な技術的課題の一つでした。
「WMDEは、DataStaxのAPIポータルを通じてJina AIのような完全な多言語モデルを活用し、Wikidataに表現されている100の言語まで意味的に検索できるようにすることによって、オープンソースの人工知能/機械学習コミュニティのためにWikidataのデータを簡単にアクセスできるようにする計画です。大規模で、多言語、多文化、動的なデータセットをベクトル埋め込むことは、特にリソースが限られ、能力が低いオープンソース開発者にとっては難しい課題です。DataStaxとのコラボレーションによって、世界が自分たちの人工知能/機械学習アプリケーションのためにWikidataの大規模サブセットにより簡単にアクセスできる可能性があります。現時点では英語のみで利用可能ですが、DataStaxのソリューションは、以前のオンプレミスのGPUソリューションよりも約10倍速い貴重な初期実験を提供しました。この近いリアルタイムの速度により、Wikidataの頻繁な更新に合わせたベクトルデータベース内で大規模なサブセットの統合をテストすることで、スケールとスピードで実験を行うことができます」とWikimedia Deutschlandの最高技術責任者であるジョナサン・フレイン博士は述べました。
開発者の効率性はウィキメディア・ドイチュラントにとっても重要であり、ウィキデータは世界最大のオープンソース知識グラフの一つです。AWS上のDataStax人工知能プラットフォームを使用することで、1000万件以上のエントリーを3日以内に取り込み、処理し、ベクトル埋め込みを行うことが可能でした。ベクトル化されたデータは確実に無制限のCC0ライセンスの下で利用可能です。
このような大規模なデータセットをベクトル化することは非常に複雑であり、各ドキュメントはリアルタイム検索とアクセシビリティを支えるためにリソース集約型の埋め込みプロセスを必要とします。従来の線形の読み書き取引種類は、ウィキメディア・ドイチュラントが全世界のコミュニティによる何十万もの日々の更新を瞬時に何百万ものユーザーに提供するために必要なスケールと速度に追いつくことはできません。世界における最も重要なオープンソース知識グラフとして、ウィキデータは毎分何百もの更新に対して高品質でリアルタイムの結果を要求します。AWS上にホストされたAstra DBのサーバーレスベクトル化機能とエヌビディアNeMoにより、DataStax人工知能プラットフォームはウィキデータのベクトルデータベースを常に最新の状態に保つために必要なほぼゼロ遅延とスケーラビリティを提供します。これは、ウィキメディアのグローバルなオーディエンスへのサービスに必要不可欠な信頼性を維持します。
「DataStaxとの協力とそのアプローチにより、新たな能力が開かれ、プロセスが効率化され、コミュニティに対してより迅速で正確なインサイトを提供できるようになります」と、ウィキデータのポートフォリオリードであるリディア・ピンツシャーは述べました。「DataStaxは、オープンで高品質なデータを用いて公共の利益のための人工知能アプリケーションの開発を支援し、奨励するために必要なスケーラビリティ、使いやすさ、および高度な埋め込みモデルの組み合わせを提供しています。」
「私たちは、ウィキメディア・ドイチュラントが私たちの人工知能プラットフォームを用いて世界最大の知識グラフへのアクセスを向上させるのを見ることができて非常に興奮しています。オープンソースコミュニティは、より多くの共同利益をもたらし、デジタル世界に多くの新しいアイデアや革新を生み出すために重要です」と、DataStaxの最高製品責任者であるエド・アナフは述べました。
ウィキメディア・ドイチュラントとDataStaxは、これらの初期プロジェクトを拡大し、検索の信頼性をさらに向上させるためにgraphRAGのような機能を探り、アクセシビリティを向上させるために何百もの言語をサポートする計画です。AWSにより強化されたAstra DBのサーバーレスモデルの組み合わせにより、ウィキメディア・ドイチュラントのインフラ関連はデータの需要に応じて柔軟に成長することができ、オープンソースの人工知能駆動の知識におけるグローバルリーダーとしての地位を固めることができます。
DataStaxは、AWSの顧客に最先端のAI開発プラットフォームをエンドツーエンドで提供し、アイデアから生産まで開発者を支援しています。Astra Vectorizeは、AWS上で実行中のAstra Dbで埋め込み生成を直接処理することにより、ベクトル埋め込みを簡素化し、加速します。アマゾンベッドロックもDataStax Langflowでサポートされており、AWS開発者が実データを使って基盤モデルをテストするためのドラッグアンドドロップ体験を提供します。LangflowにはAmazon Qのサポートも追加され、ユーザーはAWSの人工知能によるアシスタントとの統合のためのローコードの利便性を享受できます。DataStaxは、AWS Gravitonプロセッサを活用することで、AWSユーザーにコスト削減をもたらし、運用コストを低下させ、AWSユーザーがTCOを管理するのを支援します。
DataStaxについて
DataStaxは、開発者や企業がGenAIを通じて大胆な新しい世界を成功裏に創造する手助けをする会社です。私たちは、関連性のある反応的なGenAIアプリケーションのために、迅速で容易な生産への道を提供するすべてを備えたワンストップ生成AIスタックを提供しています。DataStaxは、先進的なAIエコシステムパートナーへの一流の統合を持つRAG優先の開発者体験を提供し、開発者の選んだ既存のスタックで作業します。DataStaxを使えば、誰でも、無限のスケールで、あらゆるクラウド上で賢く、高成長のAIアプリケーションを迅速に構築できます。アウディ、バドファイナンシャル、キャピタルワン、スカイポイントなど、世界のリーディング企業数百社がDataStaxに依存しています。詳細はDataStax.comをご覧ください。
2024 DataStax Inc.、全著作権所有。DataStaxは、アメリカ合衆国および他の国におけるDataStax, Inc.およびその子会社の登録商標です。
Wikimedia Deutschlandについて
Wikimedia Deutschlandは、デジタル空間で自由に利用できる知識の普及に努める非営利団体で、11万1000人以上のメンバーと180人の従業員を有しています。国際的なWikimediaムーブメントの最大の国内代表として、ドイツにおけるWikipediaやその他のウィキプロジェクトのボランティアコミュニティを推進しています。Wikimedia Deutschlandは、自由なソフトウェアや無料のWikidataデータベースを開発し、無料での知識とデータへのアクセスを促進するための政治的教育活動にも関与しています。詳細はWikimedia.deをご覧ください。
連絡先
データスタックス
レガン・シアッパ
regan.schiappa@datastax.com
ウィキメディア・ドイチュラント
ザラ・ジアディ
Zarah.ziadi@wikimedia.de