新浪テクノロジーによると、第6回「Beijing Zhiyuan Conference」が中関村展示センターで開催されました。Zhiyuan研究所の学長であるWang Zhongyuanは、言語、マルチモーダル、エンボディ、生物計算の大規模モデルの最前線探索と研究の進展を紹介し、同時にZhiyuan大規模モデル全家具および全スタックオープンソース技術基盤の新バージョンマップを発表しました。
大規模モデルのトレーニング計算力の高消費に対処するため、Zhiyuan研究所とChina Telecom人工知能研究所(TeleAI)は、モデル成長、損失予測などの重要な技術に基づいて、全球初の低炭素単形態密集1T言語モデルTele-FLM-1Tを共同開発し、リリースしました。このモデルは、数百億の52B版、数百億の102B版と共にTele-FLMシリーズモデルを構成しています。
大規模モデルの幻覚などの問題に対処するため、Zhiyuan研究所は、一般的な意味的ベクトルモデルBGE(BAAI General Embedding)シリーズを独自に開発し、検索の強化RAG技術に基づいて、データ間の精密な意味のマッチングを実現し、外部の知識を呼び出す大規模モデルの呼び出しをサポートしています。2023年8月以降、BGEモデルシリーズは、英語と中国語の検索、多言語の検索、および細分化された検索の3つのタスクで業界最高のパフォーマンスを達成し、OpenAI、Google、Microsoft、Cohereなどの機関の同類のモデルより総合能力が著しく優れていることが示されました。
また、多モーダル、統一、エンドツーエンドの次世代大規模モデルを実現するために、Zhiyuan研究所はEmu3ネイティブ多模態ワールドモデルを発表しました。 Emu3は、Zhiyuanの独自に開発した多モーダル自己回帰技術パスを採用し、画像、ビデオ、テキストを統合的にトレーニングすることで、モデルに原生の多モーダル能力を与え、画像、ビデオ、テキストの統一入出力を実現しています。
Wang Zhongyuanは、「現在、言語の大規模モデルの開発は、一般的な人工知能の理解と推論能力に非常に重要であり、他のモードに合わせてアライメントおよびマッピングする技術路線を形成することによって、初期の多モーダル理解および生成能力を備えたモデルを実現するための方法です。しかし、これは人工知能が物理世界を認識、理解するための究極の技術的手段ではなく、統一モデルの範式を採用し、多モーダル入出力を実現し、モデルに原生の多モーダル拡張能力を与え、世界モデルに進化させるべきです。」と述べています。
Wang Zhongyuanは、「将来的には、大規模モデルは数字的知性体として、インテリジェント・ハードウェアと融合し、エンボディ知性の形でデジタル・ワールドから物理的世界に進入することになるでしょう。また、大規模モデルは科学研究に新しいナレッジエクスプレッション範式を提供し、人類の微視的物理世界の法則の探究と研究を加速し、最終的な目標である一般的な人工知能に近づけます。」と語っています。