a99_2aiday-vfinal1

展品99.2

2 I 2024年AI日 © 英偉達股份有限公司與biontech se I 2024年10月本演示文稿含有根據1995年修訂版《私人證券訴訟改革法》的前瞻性陳述。在某些情況下，前瞻性陳述可以通過術語識別，如“將”，“可能”，“應”，“期望”，“打算”，“計劃”，“旨在”，“預期”，“相信”，“估計”，“預測”，“潛力”，“繼續”，或這些術語的否定形式或其他類似術語，儘管不是所有前瞻性陳述都包含這些詞語。本演示文稿中的前瞻性陳述既不約定也不保證，您不應過度依賴這些前瞻性陳述，因為它們涉及已知和未知的風險、不確定性和其他因素，其中許多超出了biontech的控制範圍，可能導致實際結果與這些前瞻性陳述所表達或暗示的結果有實質不同。您應詳細查看在biontech截至2024年6月30日止的第6-k表格》中描述的風險和不確定性，以及biontech向美國證券交易委員會提交的隨後文件中描述的風險和不確定性。這些文件可在美國證券交易委員會網站https://www.sec.gov/上獲得。除非法律要求，biontech不對在新信息、未來發展或其他方面更新或修訂本演示文稿中包含的任何前瞻性陳述表達任何意圖或責任。這些前瞻性陳述基於biontech目前的期望並僅截至本次日期。此外，本演示文稿中包含的某些陳述與或基於研究、出版物、調查和其他來自第三方來源以及biontech自身內部估計和研究獲得的數據有關。雖然biontech相信這些第三方來源截至本演示文稿的日期是可靠的，但它並未獨立核實，並且對於從第三方來源獲得的任何信息的充分性、公正性、準確性或完整性不作任何陳述。此外，本演示文稿中包含的任何市場數據都涉及假設和限制，並不能保證此類假設的準確性或可靠性。盡管biontech相信其自身的內部研究是可靠的，但該研究未經任何獨立來源核實。此外，biontech擁有本演示文稿中可能出現的各種商標、商號和服務標記的所有權。本演示文稿中出現的某些商標、商號和服務標記是第三方的財產。僅基於方便，本演示文稿中的商標和商號可能在不帶有®和Tm符號的情況下提及，但不應將此類提及解釋為他們各自所有者將不會在適用法律範圍內最大程度地主張其權利。本幻燈片演示包括前瞻性陳述

朝向基於多種形式和不同的差異化新型/新型治療組合的癌症潛在治愈方法的空間免疫調節劑新型檢查點抑制劑，細胞因子，免疫激動劑mRNA疫苗靶向療法ADC，CAR-t，TCR-t，小分子協同作用ADC = 抗體藥物複合物；CAR = 嵌合抗原受體；TCR-t = T細胞受體改造T細胞；IO = 免疫腫瘤學。免疫調節劑•聚焦於最相關和至關重要的IO通路•針對複雜的癌症免疫循環中的不同補充角色，旨在實現全面和持久的抗腫瘤效果mRNA癌症疫苗•可通過個性化疫苗消除多克隆殘留疾病，具有潛在的長期影響•通過一次性靶向多種抗原實現多向活性靶向療法•能夠快速減少腫瘤負擔•旨在具有整個疾病連續體上的臨床療效，包括晚期線路

biontech和InstaDeep在2020年創建了一個具有明確預算和專用基礎設施的聯合人工智能實驗室 biontech和InstaDeep在2019年至2023年間開展了項目工作 biontech在InstaDeep的b輪融資中與谷歌和一群投資者一道投資 biontech收購了InstaDeep，以其作為一家全資AI子公司運營 biontech和InstaDeep在2022年緊密合作，將人工智能嵌入biontech平台和功能2014至2017年，biontech推出了一個體外新型抗原選擇過程 biontech開展了個性化mRNA癌症疫苗的人體試驗2 8英偉達©2024愛文思控股有限公司及biontech SE 2024年10月 biontech和InstaDeep- 合作之路1. 癌症研究，PMID 22237626，2. 大自然 PMID 25901682, 大自然 PMID 28678784，3. biontech的個性化癌症疫苗候選藥物，autogene cevumeran，與拜耳集團成員基因泰克合作 2011年，biontech推出了通過計算設計的個性化mRNA癌症疫苗1

11 I AI 天 © 2024 InstaDeep Ltd. & biontech se I 2024年10月我們的目標：在我們的免疫治療流程中全面部署AI 1. 免疫組織化學 2. DNA/RNA 序列 3. 蛋白質組學 4. 蛋白質設計 5. 實驗室功能驗證 AI Vision DNA LLMs AI Agent 蛋白質 LLMs DNA 序列分析和個性化基因組標註組織病理學 AI計算機視覺來提高組織標簽的速度和精確性蛋白質組學利用AI進行靶點發現和免疫學景觀分析蛋白質設計為免疫治療模式（抗體、細胞激素、TCR）開發資產實驗室儀器自動化和質量控制 AI-first 免疫治療平台

擴展定律大型語言模型（LLMs）的性能是一個光滑、行為良好且可預測的函數，取決於您模型的參數數量、用於訓練其的數據量以及計算資源。來源: Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai兆., Rutherford, E., Casas, D.D.L., Hendricks, L.A., Welbl, J., Clark, A. and Hennigan兆., 2022. 訓練計算優化的大型語言模型。24 I AI Day © 2024 InstaDeep Ltd. & biontech se I October 2024

來源: Achiam, Josh, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida 等.“Gpt-4兆.chnical report.” (2023) 通過擴展現有算法，我們可以期待 “更聰明”。擴展定律 25 I AI Day © 2024 InstaDeep Ltd. & biontech se I October 2024

29 I AI Day © 2024 InstaDeep Ltd. & biontech se I 2024年10月 #1 加速強化學習強化學習是從試驗和錯誤中學習的科學。一個模擬引擎將計算轉化為數據。在8x硬件加速器上的Sebulba架構擴展強化學習 • 多個線程保持硬件加速器活躍。 • 學習器核心處理經驗，使用JAX原始同步更新。 • 該架構可以在大量節點上複製，形成一個超級計算集群。 • 利用硬件加速器節點之間的高速內部芯片互連。 [1]“InstaDeep’s scalable reinforcement learning on Cloud TPU”，2023年10月19日，Google Cloud博客文章 [2] Berner, C., Brockman, G., Chan等人.，Cheung, V., Dębiak, P., Dennison, C., Farhi, D., Fischer, Q., Hashme, S., Hesse, C.和Józefowicz, R., 2019年。 Dota 2大規模深度強化學習。 [3] Hessel等人。，Kroiss等人。，Clark, A.，Kemaev, I.，Quan, J.，Keck等人。，Viola, F.和van Hasselt, H.，2021年。可擴展強化學習的Podracer架構。

進步：隨著硬件和模擬數據的擴展，性能提高了50%。更便宜：由於更有效地使用硬件，成本降低了13倍。更快：訓練RL代理器收斂速度快了240倍。[1]“InstaDeep’s scalable reinforcement learning on Cloud TPU”，2023年10月19日，Google Cloud博客文章[2] Berner, C., Brockman, G., Chan等人.，Cheung, V., Dębiak, P., Dennison, C., Farhi, D., Fischer, Q., Hashme, S., Hesse, C.和Józefowicz, R.，2019年。 Dota 2大規模深度強化學習。 [3] Hessel等人.，Kroiss等人。，Clark, A.，Kemaev, I.，Quan, J.，Keck等人。，Viola, F.和van Hasselt, H.，2021年。可擴展強化學習的Podracer架構。 #1 加速強化學習 30 I AI Day © 2024 InstaDeep Ltd. & biontech se I 2024年10月

31 I 人工智慧日 © 2024 InstaDeep Ltd. 及 biontech se I 2024年10月推廣下一代生成AI模型 • 內部JAX基礎軟體庫 • 無可匹敵的工程技術，如混合平行性、混合精度、重量回收等。結果 • 訓練多十億參數模型（+150億） • 擴展定律在行動中 • 與最新的Meta Llama 3.11硬件效率相當，即150億模型＃2的模型Flop利用率約為50% 用於生物的生成AI [1] Dubey, A., Jauhri, A., Pandey, A., Kadian, A., Al-Dahle, A., Letman, A., Mathur, A., Schelten, A., Yang, A., Fan, A. 和 Goyal, A.，2024年。llama 3模型群。arXiv預印本arXiv:2407.21783。來源：InstaDeep

38 I 人工智能日 © 2024 InstaDeep Ltd. & biontech se I 2024年10月老闆貓報告抱歉 ____ 貝爾曼吞~~~~ 自迴歸 (GPT) 掩膜預測 (BERT)擴散優點：連續數據（尤其是圖像），修補，快速梯度取樣缺點：離散數據優點：序列數據（尤其是文本）缺點：無序數據，修補，慢取樣優點：離散數據，修補，表徵學習缺點：連續數據，慢取樣反向過程：去雜音正向過程：添加雜音幻燈片抱歉老闆，狗吞了我的 ______ 但是哪個模型？

Graves, Srivastava, Atkinson, Gomez 2023 貝葉斯流網路與擴散模型不同，它們以連續方式生成離散數據，從而實現了基於梯度的取樣。這使得BFNs非常適合在不同數據模態之間進行可控生成。BFNs是一種利用貝葉斯推理更新對數據信念的新類生成模型，用於更新對數據的信念。39 I 人工智能日 © 2024 InstaDeep Ltd. & biontech se I 2024年10月

結合物結合分析結構分類GO術語EC編號序列AGL… PE分數結構域pTMs蛋白質組學：功能預測從數據中學習有用的功能的一個統一框架（1）學習建模所有數據的聯合分佈，和（2）有條件地對感興趣的任務進行抽樣。p( )AGL…，，，，，，，，，，... | 生成建模42 I 2024年AI日©InstaDeep有限公司和biontech se I 2024年10月

結合物結合分析結構分類EC編號序列AGL… PE分數結構域pTMs蛋白質組學：抗體設計從數據中學習有用的功能的一個統一框架（1）學習建模所有數據的聯合分佈，以及（2）有條件地對感興趣的任務進行抽樣。p( )AGL…，，，，，，，，，，... | GO術語生成建模43 I 2024年AI日©InstaDeep有限公司和biontech se I 2024年10月

序列AGL…蛋白質組學：序列生成從數據中學習有用的功能的一個統一框架（1）學習建模所有數據的聯合分佈，以及（2）有條件地對感興趣的任務進行抽樣。生成建模44 I 2024年AI日©InstaDeep有限公司和biontech se I 2024年10月 De Novo條件有限僅適用於離散數據“離散”擴散P R I。MMPRSSPV... 自回歸（GPT）R。MPPR____... 掩蓋式預測（BERT）RRS。MPP___IV... 是否是

自然、多樣和新穎的蛋白質序列ProtBFN學習自然蛋白質的統計和生化特性，具有高保真度。1. 每個模型生成的10000個序列與UniRef50的群集進行匹配。當與序列身份大於50％的匹配時，將確定為命中。覆蓋分數是命中獨立群集數量與如果序列是從模型訓練分佈中獨立抽取的預期數量的比率。ProtGPT2（huggingface.co/nferruz/ProtGPT2）和EvoDiff（github.com/microsoft/evodiff）序列是使用作者提供的公開代碼和模型權重進行抽樣。2. ProtBFN生成的序列與模型訓練數據中找到的最佳匹配蛋白質序列的身份。任何身份小於100％的都是模型以前未見過的新穎序列。...更多多樣性...1更自然...1 ...並且非常新穎。2 95％序列身份小於95％ 89％序列身份小於80％ 44％序列身份小於50％ 45 I 2024年AI日©InstaDeep有限公司和biontech se I 2024年10月

具有新序列的球狀結構主題預測生成序列的結構展現出自然、全球協調和功能多樣的折疊。在自然界中，結構在很大程度上確定功能。序列 AGL… 結構功能單域和多域蛋白質。具有域間交互作用的全球一致生成。跨越已知結構和生命之樹的多樣性。α-螺旋、β-膜、α-β 和不規則域。小型和大型域。跨膜蛋白質（孔蛋白和轉運蛋白）和酶。專屬於古生物、細菌、真核生物（植物、人類）的域。 46 I AI Day © 2024 InstaDeep Ltd. & biontech se I October 2024

蛋白質序列的BFN 超越或匹敵任務特定的自回歸、擴散和BERt模型。提高自然性、多樣性和新奇性。使用模型的零-shot條件。僅於數天前發布！1 申請專利。 1. 可在https://www.biorxiv.org/content/10.1101/2024.09.24.614734v1 上找到 47 I AI Day © 2024 InstaDeep Ltd. & biontech se I October 2024

超越僅限於序列模型我們的目標是對所有事物建模：構建異質科學數據聯合分佈的基礎模型。跨多種數據類型和來源的性能。科學家可以靈活地進行任務特定的推斷。 48 I AI Day © 2024 InstaDeep Ltd. & biontech se I October 2024 p( ) 結合物結合測定結構分類法GO術語 EC 編號序列 AGL… PE 分數結構域pTMs AGL… , , , , , , , , , ,...

任務 #1 任務 #2 AGL… 任務數據模型科學家 A?L… AGL… AGL… AGL… AGL…數據傳統ML人工智能AIAI 超越僅限於序列模型我們的目標是對所有事物建模：構建異質科學數據聯合分佈的基礎模型。跨多種數據類型和來源的性能。科學家可以靈活地進行任務特定的推斷。 49 I AI Day © 2024 InstaDeep Ltd. & biontech se I October 2024

CDR-L1 CDR-L2 CDR-L3 CDR-H1 CDR-H2 CDR-H3 VH: EVQLLESGGGLVQPGGSLRLSCAASGFTFSSYAMSWVRQAPGKGLEWVSAISWNSGSIYADSVKGRFTISRDNSKNTLYLQMNSLRAEDTAVYYCARGWSQVDTAMDLDYGQGTLVTVSS D gene AbBFN-X VL: DIQMTQSPSSVSASVGDRVTITCRASQSVSSNLAWYQQKPGKAPKLLIYGASSLQSGVPSRFSGSGSGTDFTLTISSLQPEDFATYYCQQYNNWLTFGQGTRLEIk L2 L1 H3 H2 H1 VH VL VH VL CH1 CL VH CH1 VL CL CH2 CH3 CH2 CH3 FV Fab V gene J gene V gene J gene L3 52 I AI Day © 2024 深智有限公司 & biontech se I 2024年10月

長度屬性 CDR-H1 長度 CDR-H2 長度 CDR-H3 長度 CDR-L1 長度 CDR-L2 長度 CDR-L3 長度 VH 長度 VL 長度 HV基因 HD基因 HJ基因 HV序列一致性 HD序列一致性 HJ序列一致性 LV基因 LD基因 LV序列一致性 LJ序列一致性 LC基因組物種遺傳屬性 % % % % % 氨基酸序列 FWR-H1 CDR-H1 FWR-H2 CDR-H2 FWR-H3 CDR-H3 FWR-H4 FWR-L1 CDR-L1 FWR-L2 CDR-L2 FWR-L3 CDR-L3 FWR-L4 AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… L2 L1 H3 H2 H1 VH VL VH VL CH1 CL VH CH1 VL CL CH2 CH3 CH2 CH3 FV Fab L3 生物物理屬性負補丁電荷不平衡正補丁疏水性 AbBFN-X 53 I AI Day © 2024 深智有限公司 & biontech se I 2024年10月 CDR-L1 CDR-L2 CDR-L3 CDR-H1 CDR-H2 CDR-H3 VH: EVQLLESGGGLVQPGGSLRLSCAASGFTFSSYAMSWVRQAPGKGLEWVSAISWNSGSIYADSVKGRFTISRDNSKNTLYLQMNSLRAEDTAVYYCARGWSQVDTAMDLDYGQGTLVTVSS D gene VL: DIQMTQSPSSVSASVGDRVTITCRASQSVSSNLAWYQQKPGKAPKLLIYGASSLQSGVPSRFSGSGSGTDFTLTISSLQPEDFATYYCQQYNNWLTFGQGTRLEIk V gene J gene V gene J gene

CDR-L1 CDR-L2 CDR-L3 CDR-H1 CDR-H2 CDR-H3 VH: EVQLLESGGGLVQPGGSLRLSCAASGFTFSSYAMSWVRQAPGKGLEWVSAISWNSGSIYADSVKGRFTISRDNSKNTLYLQMNSLRAEDTAVYYCAKDLLGSFPYDASGYYDYFDYWGQGTLVTVSS VL: DIQMTQSPSSVSASVGDRVTITCRASQSVSSNLAWYQQKPGKAPKLLIYGASSLQSGVPSRFSGSGSGTDFTLTISSLQPEDFATYYCQQANSFPPTFGQGTRLEIk L2 L1 H3 H2 H1 L3 AbBFN-X 長度屬性 CDR-H1 長度 CDR-H2 長度 CDR-H3 長度 CDR-L1 長度 CDR-L2 長度 CDR-L3 長度 VH 長度 VL 長度 HV 基因 HD 基因 HJ 基因 HV 序列同源性 HD 序列同源性 HJ 序列同源性 LV 基因 LD 基因 LV 序列同源性 LJ 序列同源性 LC 位點物種遺傳屬性百分比百分比百分比百分比百分比氨基酸序列 FWR-H1 CDR-H1 FWR-H2 CDR-H2 FWR-H3 CDR-H3 FWR-H4 FWR-L1 CDR-L1 FWR-L2 CDR-L2 FWR-L3 CDR-L3 FWR-L4 AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… 生物物理屬性負性補丁電荷不平衡正性補丁疏水性 54 I 人工智能 Day © 2024 InstaDeep Ltd. & biontech se I October 2024

CDR-L1 AbBFN-X Length Attributes CDR-H1 長度 CDR-H2 長度 CDR-H3 長度 CDR-L1 長度 CDR-L2 長度 CDR-L3 長度 VH 長度 VL 長度 HV 基因 HD 基因 HJ 基因 HV 序列同源性 HD 序列同源性 HJ 序列同源性 LV 基因 LD 基因 LV 序列同源性 LJ 序列同源性 LC 位點物種遺傳屬性百分比百分比百分比百分比百分比氨基酸序列 FWR-H1 CDR-H1 FWR-H2 CDR-H2 FWR-H3 CDR-H3 FWR-H4 FWR-L1 FWR-L2 CDR-L2 FWR-L3 CDR-L3 FWR-L4 AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… 生物物理屬性負性補丁電荷不平衡正性補丁疏水性 L2 L1 H3 H2 H1 L3 55 I 人工智能 Day © 2024 InstaDeep Ltd. & biontech se I October 2024 CDR-L1 CDR-L2 CDR-L3 CDR-H1 CDR-H2 CDR-H3 VH: EVQLLESGGGLVQPGGSLRLSCAASGFTFSSYAMSWVRQAPGKGLEWVSAISWNSGSIYADSVKGRFTISRDNSKNTLYLQMNSLRAEDTAVYYCAKDLLGSFPYDASGYYDYFDYWGQGTLVTVSS VL: DIQMTQSPSSVSASVGDRVTITCRASQSVSSNLAWYQQKPGKAPKLLIYGASSLQSGVPSRFSGSGSGTDFTLTISSLQPEDFATYYCQQANSFPPTFGQGTRLEIk

CDR-L1 CDR-L2 CDR-L3 CDR-H1 CDR-H2 VH: EVQLLESGGGLVQPGGSLRLSCAASGFTFSSYAMSWVRQAPGKGLEWVSAISWNSGSIYADSVKGRFTISRDNSKNTLYLQMNSLRAEDTAVYYCAKDRGGNWAILDYWGQGTLVTVSS VL: DIQMTQSPSSVSASVGDRVTITCRASQSVSSNLAWYQQKPGKAPKLLIYGASSLQSGVPSRFSGSGSGTDFTLTISSLQPEDFATYYCQQANSFPPTFGQGTRLEIk L2 L1 H3 H2 H1 L3 AbBFN-X 長度屬性 CDR-H1 長度 CDR-H2 長度 CDR-H3 長度 CDR-L1 長度 CDR-L2 長度 CDR-L3 長度 VH 長度 VL 長度 HV 基因 HD 基因 HJ 基因 HV 序列同源性 HD 序列同源性 HJ 序列同源性 LV 基因 LD 基因 LV 序列同源性 LJ 序列同源性 LC 位點物種遺傳屬性百分比百分比百分比百分比百分比氨基酸序列 FWR-H1 CDR-H1 FWR-H2 CDR-H2 FWR-H3 CDR-H3 FWR-H4 FWR-L1 CDR-L1 FWR-L2 CDR-L2 FWR-L3 CDR-L3 FWR-L4 AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… 生物物理屬性負性補丁電荷不平衡正性補丁疏水性 CDR-H3 56 I 人工智能 Day © 2024 InstaDeep Ltd. & biontech se I October 2024

FWR-H1 CDR-H1 FWR-H2 CDR-H2 FWR-H3 CDR-H3 FWR-H4 FWR-L1 CDR-L1 FWR-L2 CDR-L2 FWR-L3 CDR-L3 FWR-L4 AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… 生成針對HIV的稀有抗體庫：(1)識別目標屬性。(2)條件抽樣稀有、所需的抗體。氨基酸序列HV基因HD基因HJ基因HV序列相似性HD序列相似性HJ序列相似性LV基因LD基因LV序列相似性LJ序列相似性LC基因座物種遺傳屬性 % % % % % 長度屬性 CDR-H1長度 CDR-H2長度 CDR-H3長度 CDR-L1長度 CDR-L2長度 CDR-L3長度 VH長度 VL長度生物物理屬性負斑塊電荷不均衡正斑塊疏水性示例任務1：抗HIV抗體庫設計 58 I AI Day © 2024 InstaDeep Ltd. & BioNTech SE I 2024年10月

AbBFN-X抗體更有可能擁有所有所需的特徵，提高5600倍。生成針對HIV的稀有抗體庫：(1)識別目標屬性。(2)條件抽樣稀有、所需的抗體。示例任務1：抗HIV抗體庫設計 59 I AI Day © 2024 InstaDeep Ltd. & BioNTech SE I 2024年10月1. "基準Abs"指的是自然抗體的資料集(Olsen等人，2021年，Prot. Sci.)，"BFN"指的是由AbBFN-X生成的樣本。 2.與自然抗體資料集中找到具有正確特徵的抗體的速度相比(Olsen等人，2021年，Prot. Sci.)

ARDEIYFLEWLISY AKVRLGELPYEAFDI ARGVRVQ SYNWFDP ASGEYFFDTSSYPN ARSSFVYPKSGYDFYFDY ARDIAVDPESTAYFDY AKGFSYGDGWADY VRLRVGVLPGAFDI ARDGGHYSH ASGSGDSRYAQPLWFTTAFDI ATSLNYGVIISD ASGKMAVAYYFDY AREGMDASMYYFDY ARDMGYHDGALVFDN… L2 L1 H3 H2 H1 L3 100%獨特CDR1獨特CDR-H3 99%獨特CDR-L3 100% 52%獨特非H/L3 CDRs1. 生成了128個樣本，通過同時考慮所有相關區域，排除框架區域，評估其獨特性。生成針對HIV的稀有抗體庫：(1)識別目標屬性。(2)條件抽樣稀有、所需的抗體。示例任務1：抗HIV抗體庫設計 60 I AI Day © 2024 InstaDeep Ltd. & BioNTech SE I 2024年10月

生成一組可發展的輕鏈，將與重鏈配對：(1)根據期望的特性和重序列進行條件設置。(2)對穩定、多樣化的序列進行抽樣。FWR-H1 CDR-H1 FWR-H2 CDR-H2 FWR-H3 CDR-H3 FWR-H4長度屬性CDR-H1長度CDR-H2長度CDR-H3長度CDR-L1長度CDR-L2長度CDR-L3長度HV基因HD基因HJ基因HV序列相似度HD序列相似度HJ序列相似度LV基因LD基因LV序列相似度LJ序列相似度LC基因座物種VH長度VL長度基因屬性% % % % %生物物理屬性負碼片段電荷不平衡正電荷疏水性FWR-L1 CDR-L1 FWR-L2 CDR-L2 FWR-L3 CDR-L3 FWR-L4 AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL… AGL…氨基酸序列示例任務2：重-輕配對62 I AI Day © 2024 InstaDeep Ltd. & BioNTech SE I 2024年10月

InstaDeep正在開發下一代GenAI模型，涵蓋整個領域，從基礎機器學習研究、建模科學數據以至為科學家提供新功能。Bayesian Flow Networks統一建模多模數據任務特定條件生成人工學習異構數據所有模態一視同仁蛋白質序列建模發布示範 BFN-X正在開發基礎模型領先各項任務表現序列、基因和生物物理多樣獨特的全新生成學習合理的抗體原則零樣本推斷填充讓各種任務多樣化運行 66 I AI Day © 2024 InstaDeep有限公司及biontech se I 2024年10月

68 I AI Day © 2024 InstaDeep有限公司及biontech se I 2024年10月功能驗證實驗室整合發展穩定性增強優化結合最先進的科學與工程我們的人工智能工具旨在加速研發管道 [1] Alice Sends Amino Acids to Bob: 用Bayesian Flow Networks進行蛋白質序列建模，Barrett等人，審查中（2024年）。 [2] The Nucleotide Transformer: 構建和評估人類基因組堅固基礎模型，Dalla-Torre等人，審查中（2023年）。 [3] SegmentNT：使用DNA基礎模型以單核苷酸分辨率標註基因組，Almeida等人，審查中（2024年）。核苷酸變壓器2,3 - 剪切預測 - 在矽设计調節序列下分解與设计調节序列 Bayesian流網絡1 - 全新抗體設計 - 提升親和力助手 - 提出假設，設計實驗 - 要求工具分析結果並與人類科學家協作

我們正在Release我們在DeepChain上的旗艦模型 ProtBFN及AbBFN1 核苷酸變壓器2及SegmentNT3 最先進的生成蛋白模型生成自然、多樣、結構相關和新奇蛋白質序列勝過領先的自回歸和離散擴散模型可以靈活條件生成，零樣本方式我們的DNA基礎模型單核苷酸分辨率長達50kb上下文長度，在性能不降的情況下可通用於各種物種 70 I AI Day © 2024 InstaDeep有限公司及biontech se I 2024年10月 [1] Alice Sends Amino Acids to Bob: 用Bayesian Flow Networks進行蛋白質序列建模，Barrett等人，審查中（2024年）。 [2] The Nucleotide Transformer: 構建和評估人類基因組堅固基礎模型，Dalla-Torre等人，審查中（2023年）。 [3] SegmentNT：使用DNA基礎模型以單核苷酸分辨率標註基因組，Almeida等人，審查中（2024年）。

我們正在DeepChain ProtBFN和AbBFN1核苷酸Transformer2以及SegmentNT3推出旗艦型號最先進的生成蛋白模型生成自然、多樣、結構一致且新穎的蛋白質序列優於領先的自回歸和離散擴散模型能夠以零槍擊方式進行靈活的有條件生成我們的DNA單核苷酸分辨率的基礎模型最高50kb的上下文長度而無性能下降跨物種泛化[1] Alice將氨基酸發送給Bob：具有貝葉斯流網絡的蛋白序列建模，Barrett等人，審查中（2024年）[2] 核苷酸Transformer：構建和評估人類基因組的堅固基礎模型，Dalla-Torre等人，審查中（2023年）[3] SegmentNT：使用DNA基礎模型對基因組進行單核苷酸分辨率標註，Almeida等人，審查中（2024年）71 I AI Day © 2024 InstaDeep Ltd. & BioNTech SE I 2024年10月

Hugging Face上最多下載的基因組人工智能模型之一 73 I AI Day © 2024 InstaDeep Ltd. & BioNTech SE I 2024年10月[1] 核苷酸Transformer模型的累計下載次數，規模為500-25億個參數大小，2024年9月 Hugging Face統計數據。模型發布日期：2023年4月 [2] 在“基因組”官方Hugging Face標籤下，按模型家族計數：https://huggingface.co/models?other=genomics&sort=downloads，2024年9月跨模型尺寸+70萬次下載

利用DeepChain進行推理，對於規範序列的仿真設計速度提高了7倍，成本降低了2倍* * 參考方法論：Jores等人，Tonnies, J., Wrightsman等人。合成啟動子設計得益於對植物核心啟動子的全面分析。 Nat. Plants 7, 842–855 (2021)。* 測試實施：序列長度：6kbp和2.1kbp序列，參數：--num_indels=8000，--prop_indels=0.5，--random_indels=True，--min_indels_size=2，--max_indel_size=5，--tissue_optimize_idx=1，-- opt_metric=increase，--num_rounds=30* 基準實施設置：1 NVIDIA V100張量核心GPU，使用Hugging Face上提供的已發表Pytorch實珽改進速度降低成本 77 人工智能日 © 2024 InstaDeep Ltd. & biontech se 10月2024

對專門的數據集進行模型微調，對一個劈接預測用例的性能提高了約1.5倍，對劈接任務的微調相對改善 * AUCPR：通過在不同閾值設置下繪製精確度對召回率的曲線來測量二元分類模型的整體性能，提供更準確的不平衡類別性能評估。* 用於客戶定制計算的數據集：Shiraishi Y, Kataoka k, Chiba k, Okada A, Kogure Y, Tanaka H, Ogawa S, Miyano S. A comprehensive characterization of cis-acting splicing-associated variants in human cancer. Genome Res. 2018 Aug;28(8):1111-1125. doi: 10.1101/gr.231951.117. Epub 2018 Jul 16. PMID: 30012835; PMCID: PMC6071634。* 基準實施：使用深度學習從主要序列預測劈接。Jaganathan, Kishore 等人。Cell, Volume 176, Issue 3, 535 - 548.e24 79 人工智能日 © 2024 InstaDeep Ltd. & biontech se 10月2024

82 人工智能日© 2024 InstaDeep有限公司。及BioNTech SE 2024年10月萊拉系列人工智能代理以Meta Llama 3.1建構700億4050億Llama-31-700億Laila-fine-tuned Llama-31-4050億Laila-fine-tuned參數數量億級模型版本內部由InstaDeep 80億Llama-31-80億Laila-fine-tuned細調

86 人工智能日© 2024 InstaDeep有限公司。及BioNTech SE 2024年10月我們的目標：在我們的免疫療法管道中端對端部署人工智能1. 免疫組織化學 2. DNA/RNA定序 3. 蛋白質組學 4. 蛋白質設計 5. 實驗室功能驗證 AI Vision DNA LLMs AI AgentProtein LLMs Protein LLMs DNA序列分析和個性化基因組注釋組織學人工智能計算機視覺以提高組織標記速度和準確性蛋白質組學利用人工智能進行靶點發現和免疫學風景分析蛋白質設計為免疫療法模式（抗體，細胞激素，TCR）開發資產實驗室儀器自動化和質量控制AI優先免疫療法平台

核苷酸轉換器：基因組上的自監督學習基因組DNA資料庫ATTCGACTATCCCGTAG … CCGTAG ATTCGA CTATCC CGTAG CCGTAG ATTCGA CTATCC CGTAG [MASK] 隨機樣本 12,000 bp序列 Token化（6-mer）隨機遮罩 … … 概率 Token 0.01 AAAAAA 0.01 AAAAAC 0.14 CCGTAG … 0.01 TTTTT 訓練預測 InstaDeep的核苷酸轉換器模型 ● 架構：遮蔽語言模型（Bert風格訓練）。 ● 資料集：在生命之樹中具有不同尺寸的5個數據集的訓練，具有種內和種間變異性。 ● 核苷酸轉換器（NT） ○ V1: 50000萬, 10億, 25億參數（2022） ○ V2: 5000萬, 10000萬, 25000萬參數（2023） ● 硬件 ○ 劍橋一號數據中心 (與Nvidia合作) ○ TPUv4-1024 Pod (與Google Cloud合作) 我們相信從基因組序列的自動化分析和預測有潛力改變明天的醫療保健和農業。100 I AI Day © 2024 InstaDeep Ltd. & biontech se I 十月 2024

SegmentNT: 從計算機視覺分割模型獲得靈感 C om pu te r V is io n G en om ic s 102 I AI Day © 2024 InstaDeep Ltd. & biontech se I 2024年10月來源: https://techxplore.com/news/2020-05-deep-image-recognition-ability-self-driving.html

SegmentNt在標準剪接檢測方面居於領先地位剪接是一個生物過程，從主使信使RNA（mRNA）轉錄本中刪除非編碼序列（內含子），並將編碼序列（外顯子）連接在一起，創建成熟mRNA。失調的剪接可能是癌症中的一個弱點。 SegmentNt在剪接事件檢測方面勝過現有技術SpliceAI。m C C 測試性能以在人類參考基因組上全染色體的剪接檢測106 I AI Day © 2024 InstaDeep Ltd. & biontech se I 2024年10月來源: de Almeida等人，2024年（校正中）

SegmentNt用於替代剪接事件檢測替代剪接事件可能會破壞蛋白質生產和癌症途徑，與癌症發展有關。我們微調了SegmentNt，以從替代剪接事件中識別腫瘤抗原候選者，這代表個性化癌症免疫療法的潛在目標。微調後，SegmentNt可以精確預測癌症數據中的替代剪接事件。% 檢測測試性能，針對2000個替代剪接的檢測過程（TCGA LUAD數據）107 I AI Day © 2024 InstaDeep Ltd. & biontech se I 2024年10月來源: https://www.cancer.gov/tcga（數據）

AI最大化了我們發現新型癌症靶點的能力色譜保留時間觀察到的信号強度預測的肽段碎片信號強度 0 200 400 600 800 1000 1200 1.00 0.75 0.50 0.25 0.00 0.25 0.50 0.75 1.00 觀察到的預測的提高了200%的確認肽IDS 新型特定腫瘤肽的識別 1000 0 1 10 100 1000 0 1 10 100 每個點代表一個基因（帶抖動） #正常組織樣本中的觀察次數 #癌症組織樣本中的觀察115 I AI Day © 2024 InstaDeep Ltd. & biontech se I 2024年10月 m/z 相對強度資料來源: 內部資料來源: 內部

目標數據庫 WQIPLCTVR NRRRYTSSC YVFGGLASA FTASKTTW … ASLMPTYY 假資料庫 RVTCLPIQW CSSTYRRRN ASALGGFVY WTTKSATF … YYTPMLSA 117 I 人工智能日 © 2024 InstaDeep Ltd. & biontech se I 2024年10月 MS2頻譜 #1 #2 #3 #4 #5 #6 #7 #8 #9 傳統質譜搜索目標假資料庫 MS2頻譜 #1 #2 #3 #4 #5 #6 #7 #8 #9 ASLMPTYY ASALGGFVY RVTCLPIQW YVFGGLASA CSSTYRRRN YVFGGLASA WTTKSATF WQIPLCTVR NRRRYTSSC 肽 9.7 2.1 11.6 15.1 7.2 19 5.3 0.8 12.8 分數

De Novo肽片段定序 118 I 人工智能日 © 2024 InstaDeep Ltd. & biontech se I 2024年10月 ASLMPTYY ASALGGFVY RVTCLPIQW YVFGGLASA CSSTYRRRN YVFGGLASA WTTKSATF WQIPLCTVR NRRRYTSSC 肽MS2頻譜 1. 2. 3. 4. 5. 6. 7. 8. 9. 序列至序列人工智能模型

InstaNovo - 利用深度學習的De Novo肽片段定序利用深度學習進行De novo肽片段定序。無需數據庫。這種方法模型訓練2800萬個已標記光譜，與ProteomeTools項目中的74.2萬人類肽匹配。數據集這些模型源自：InstaNovo的De novo肽片段序列化：大規模蛋白質組學實驗的準確、無數據庫肽識別(https://www.biorxiv.org/content/10.1101/2023.08.30.555055v3) InstaNovo 自迴歸編碼器-解碼器轉換器模型帶有特殊的MS2頻譜編碼器 119 I 人工智能日 © 2024 InstaDeep Ltd. & biontech se I 2024年10月 InstaNovo+ Multinomial擴散模型進一步優化性能使用迭代細化

InstaNovo - 利用深度學習的De Novo肽片段定序 120 I 人工智能日 © 2024 InstaDeep Ltd. & biontech se I 2024年10月預印本可在BioRxiv上獲得 https://www.biorxiv.org/content/10.1101/2023.08.30.555055v3 代碼可在GitHub上獲得 https://github.com/instadeepai/instanovo • InstaNovo在大多數數據集上表現良好 • 在HeLa蛋白組中增加PSm率 • 使免疫質譜學數據集擴展了42% • 發現了來自個體特異性突變、剪接變體和翻譯後修飾的肽 • 在免疫質譜實驗中發現新的HLA肽結果預印本和代碼可供查閱源自：InstaNovo的De novo肽片段序列化：大規模蛋白組學實驗的準確、無數據庫肽識別(https://www.biorxiv.org/content/10.1101/2023.08.30.555055v3)

124 I 人工智能日 © 2024 InstaDeep Ltd. & biontech se I 2024年10月我們旨在引入突變以強化neoCH1和neoCL與野生型CH1和野生型CL之間的正交性。 VH VL CH1 CL VH CH1 VL CL CH2 CH3 CH2 CH3 抗體A neoCH1 & neoCL 抗體b w.-t.CH1 & w.-t.CL 介面突變撤銷結合改善結合我們的蛋白質工程方法資料來源：RCSb.org

AI日執行摘要 Ryan Richardson 首席策略官 biontech Ugur Sahin 創始人暨首席執行官biontech Karim Beguir 首席執行官 InstaDeep

謝謝！結束