建模定量分析計算:馬爾可夫決策過程
由 discrete-time Markov chain(離散時間馬爾可夫鏈)和Markov transition probability matrix(馬爾可夫轉移概率矩陣)計算得知:Tesla股價一旦上漲至414.70後將出現指數級彈射曲線軌跡。
全攻全守型的精緻的利己主義者以及所謂的Day Trader 大都已經賣飛了或者手中僅有少量的籌碼。在蔚爲壯觀的史詩般的主升浪行情面前,主次趨勢,短期趨勢與中長期趨勢不分。學疏才淺,甚至不學無術,卻工於心計,肆意妄爲,想當然的必然結果。
詹姆斯·賀錦麗·西蒙斯(英語:James Harris Simons,1938年4月25日—2024年5月10日),生於美國馬薩諸塞州紐頓,數學家、投資家和慈善家。他於1982年創立了知名對沖基金公司——文藝復興科技公司。2019年7月,《福布斯》報道其身價爲高達217億美金,是世界上第44富有的人。在2019年美國400富豪榜,他以216億美元的資產,排名第21名。
而他在離世時,《福布斯》報道其身價達314億美金,是世界上第51富有的人。
生平
西蒙1958年畢業於麻省理工學院,1962年在伯克利加州大學獲得博士學位。他曾任教於麻省理工學院、哈佛大學和紐約州立大學石溪分校,並擔任紐約州立大學石溪分校的數學系主任。陳-西蒙斯形式就是以陳省身和他命名的。1976年,他獲得了美國數學會的奧斯瓦爾德·維布倫獎。
1982年,他轉行投資業。他所創辦的對沖基金獲得了極大的成功,他也以74億美元成爲美國最富有人之一。他還是美國國家數學科學研究所的主要捐助人之一,也曾擔任該研究所的理事會成員。
應用數學的威力和魅力:
如果漲的話會漲到哪裏?頂會在哪裏?現在追高追強會不會被套住而產生浮動虧損呢?
由 discrete-time Markov chain(離散時間馬爾可夫鏈)和Markov transition probability matrix(馬爾可夫轉移概率矩陣)計算得知:Tesla股價一旦上漲至414.70後將出現指數級彈射曲線軌跡。
因俄國數學家Andrey Andreyevich Markov(安德烈·安德烈耶維奇·馬爾可夫,1856年6月14日—1922年7月20日,俄國數學家。在隨機過程領域做出重要工作,最主要的一項研究後來被稱作馬爾可夫鏈和馬爾科夫過程 )而得名,爲狀態空間中經過從一個狀態到另一個狀態的轉換的隨機過程。該過程要求具備「無記憶」的性質:下一狀態的概率分佈只能由當前狀態決定,在時間序列中它前面的事件均與之無關。這種特定類型的「無記憶性」稱作馬爾可夫性質。馬爾科夫鏈作爲實際過程的統計模型具有許多應用(需要根據各自環境和條件,做相應的調整)。
在電氣工程、計算機科學、統計計算和生物信息學中,鮑姆-韋爾奇算法是用於尋找隱馬爾可夫模型未知參數的最大期望算法,它利用前向-後向算法來計算E-Step的統計信息。
文藝復興科技有限責任公司(英語:Renaissance Technologies LLC)是美國一家對沖基金公司,其專門從事利用數學和統計分析得出的定量模型進行系統交易。文藝復興科技公司由詹姆斯·西蒙斯於1982年成立,詹姆斯·西蒙斯是一位屢獲殊榮的數學家和前冷戰時代的密碼破解者。
1988年,文藝復興科技公司創立了該公司最賺錢的投資組合,即「大獎章基金(Medallion Fund)」。大獎章基金的定量模型是基於對倫納德·鮑姆的鮑姆-韋爾奇算法模型的改進和擴展,以探索其可能獲利的相關性,而這個改進是由代數家詹姆斯·克斯完成。西蒙斯與克斯以此成立了一家基金,並以「大獎章」命名來紀念他們曾經獲得的數學榮譽。
「大獎章基金」主要面向其基金公司所僱傭的員工, 「(大獎章基金)以投資歷史上最佳紀錄之一而聞名,在20年的時間裏,其投資年回報率超過35%。」而在1994年至2014年中期的這段時間裏,其平均年回報率更是高達71.8%。文藝復興科技公司爲外部投資者提供了兩個投資組合,即:文藝復興機構股票基金(Renaissance Institutional Equities Fund)和文藝復興機構多元阿爾法基金(Renaissance Institutional Diversified Alpha)。
詹姆斯·西蒙斯一直經營文藝復興科技公司至2009年他宣佈退休爲止,公司目前由彼得·菲茨林·布朗(Peter Fitzhugh Brown)負責經營;而在他之前則由羅伯特·勒羅伊·莫瑟管理。彼得·布朗和羅伯特·莫瑟都是從事計算語言學的計算機科學家,並且兩人都是1993年從IBM研究院辭職加入到文藝復興科技公司。西蒙斯繼續擔任該公司非執行董事長職務,並持續投資其基金,特別是以執行祕密卻長期盈利算法交易策略的大獎章基金。由於文藝復興科技公司在通常意義上的成功與大獎章基金的特別突出表現,詹姆斯·西蒙斯被描述成全球最好的基金管理者。
在數學中,馬爾可夫決策過程(Markov decision process,MDP)是離散時間隨機控制過程。 它提供了一個數學框架,用於在結果部分隨機且部分受決策者控制的情況下對決策建模。 MDP對於研究通過動態規劃解決的優化問題很有用。 MDP至少早在1950年代就已爲人所知;一個對馬爾可夫決策過程的核心研究是 羅納德·霍華德於1960年出版的《動態規劃和馬爾可夫過程》。它們被用於許多領域,包括機器人學,自動化,經濟學和製造業。MDP的名稱來自俄羅斯數學家安德雷·馬爾可夫,因爲它們是馬爾可夫鏈的推廣。
優化目標:
模擬模型:
算法:
馬爾可夫決策過程是馬爾可夫鏈的推廣,不同之處在於添加了行動(允許選擇)和獎勵(給予動機)。反過來說,如果每個狀態只存在一個操作和所有的獎勵都是一樣的,一個馬爾可夫決策過程可以歸結爲一個馬爾可夫鏈。
可以通過各種方法(例如動態規劃)找到具有有限狀態和動作空間的MDP的解決方案。本節中的算法適用於具有有限狀態和動作空間並明確給出轉移概率和獎勵函數的MDP,但基本概念可以擴展到處理其他問題類別,例如使用函數趨近。
爲有限狀態和動作MDP計算最優策略的標準算法系列需要存儲兩個按狀態索引的數列:第一個數列是,用來儲存實數,以及策略,用來存動作。在算法結束時,將存儲每一個狀態時的解決方案,而將存儲從狀態遵循該解決方案獲得的獎勵的折扣總和(平均)。
它們的順序取決於你所採用的算法的變體,可以一次或逐個狀態地對所有狀態執行它們,並且對某些狀態比其他狀態更頻繁。 只要沒有狀態被永久排除在任何一個步驟之外,算法最終將得出正確的解決方案。
著名的變體
數值迭代:
數值迭代:
免責聲明:社區由Moomoo Technologies Inc.提供,僅用於教育目的。
更多信息
評論
登錄發表評論