AI 新聞與投資

在新的市場的時候通常會降低交易成本，使投資人獲利，所以我們認為很多市場都將會因為它們的出現而獲益，但是競爭到一定程度的時候是不是會向惡性的方向發展呢？這是可能的，也將是未來數年中監管、學術和行業本身要思考和回答的問題。最後補充一句，我們認為量化投資或者演算法交易總的來說應該對市場有益，但這並不意味著我們認為投資者——尤其是散戶投資者一一應該去研究、使用這類方法。有的人可能在想：不能賺到西蒙斯那樣多的錢，有個百分之一、千分之一也不錯嘛。全球真正能靠這類方法穩定賺錢的基金屈指可數，這就說明了這類方法的難度，就連已經是億萬富翁的肖爾也說，如果讓他重新開始的話，他不會選擇演算法交易這條路，因為付出太大，而成功的可能性又太低，他說別的投資方法賺錢的價效比要好很多。西蒙斯總是說起他成功的運氣成分，這不應當僅僅理解成他的謙辭。市場所有交易人頻繁交易在短期內的總附加值是零，所以西蒙斯年復一年賺到的錢歸根結底都是別的投資人頻繁交易輸掉的錢。 207

第7章 Quantlnvestmen！颶風裡行船隻往後看川妹子發現了新大陸。自從認識西門以後，她對任何量化的東西都很感興趣。西門雖說是滿腹經綸，但是從來不會給川妹子的熱情潑冷水。不僅如此，他一般都是很鼓勵川妹子的。很多個傍晚，他們兩個一起坐下來研究川妹子記錄的各種數據，都是關於她見到的投資名人，西門趁機給她介紹很多統計的概念，更重要的是給她說統計數字後面所掩蓋的問題。所以川妹予也學會了西門常說的一句英文口頭禪：“謊言有三種：謊言、該死的謊言和統計數字。”她知道了這話最先應該是英國首相狄斯累利說的，馬克•吐溫後來的引用使它十分出名。比如，川妹子知道了平均值可能隱藏了巨大的不均，但是用來反映不均情況的標準差則常常對肥尾估計不足，人們通常說因為甲和乙的關聯絡數高所以甲和乙有因果關係也是沒有道理的，而且，關聯絡數本專就很容易受到一些因素的影響（比如肥尾），所以算出來的數字可能毫無意義，等等。這只不過是統計學的入門概念，川妹子慢慢第章颶風裡行船隻往後看開始迷上這個學料了，西門建議她報名參加網上大學的課程，川妹於準備去做。西門教她如何使用網上免費的一些統計工具，川妹子把她的那些資料上傳到網站，按幾個按鍵，就能得到很多的分析結果。試了幾次不同的方法，川妹子才發現這些複雜的方法能從她的簡單資料裡面發現那樣多的規律！每到這些時候，他們兩個總是比賽誰先說：“諾言有三種：謊言、該死的謊言和統計數字。” 川妹子也開始琢磨用量化的方法來改進她的主要是靠小道消息的炒股方法。有一天，她神秘地對西門說：“我找到了！” “找到什麼了？”西門笑睞昧地問。 “常勝不敗的授資秘訣，”川妹子說。 “嗯。那可千萬不能告訴我，否則我也去模仿，你的秘訣就會失靈的。” “我偏要告訴你嘛。我每個月都買入上個月表現第二好的行業裡面表現第二好的股票，持貨一個月，下個月再調整。因為我覺得表現最好的行業和股票已經被人炒高了，所以追進去肯定是死路一條。但是第二好的股票正好可以藉著第一好的衝勤兒。你看跑長跑的，很多時候都是緊緊跟著領先的那個人最後贏。我已經試了三個月，每個月都賺錢。” “哦，不錯呀！”西門說。 209 25倍標準差事件 2007年7、8月間，量化基金遭到“血洗”，連平常保持沉默的西蒙斯也不得不給投資人寫信解釋情況。損失最大的基金集中在統計套利這種策略上，很多這類基金同時出現高額虧報，這是比較罕見的。通常即便在市場對某種策略不利的時候，因為各種不同的基金使用的同類策略會各不相

210 解讀盤化投貨：西蒙斯用公式打敗市場的故事同，所以虧損的程度也都會不同。但這一次幾乎所有的統計套利基金都賠得很慘。摩根士丹利的量化基金據說在一天之內賠了超過3.9億美元，遠遠超過風險控制的下限。高盛財務總監說連續數日出現25倍標準差的市場價格變化，高盛的兩隻以量化為主的基金8月分別虧損了23% 和30%。有些人驚呼：這是量化基金百年一遇的風暴。也有一位教授冷靜地說：“25倍標準差的市場價格變化？宇宙的年齡都不夠我們現測到16 倍標準差的事件呢！” 很多人認為，這個現象的出現正是因為過多的資金在追隨同一個策略，超出了市場的容量。而在退出的過程中，大家都爭相沖向大門，所以使情況進一步惡化。雖說復興技術公司管理的機構投資人股票基金所受到的虧損小於很多競爭對手的虧損，但是也有人評論說即便是天下最聰明的頭腦也無法對抗變化莫測的市場，而長期資本管理就是前車之鑑。正是因為西蒙斯過去的成功，很多量化基金紛紛效仿復興技術的各種策略，最後導致它們的頭寸很相似。比如，2007年6月，根據各大基金給美國證交會上報的檔案，復興技術的機構投資人股票基金的前10大股票部位裡面有4只股票和另一個專門從事量化投資的基金重疊。隨著當時美國次貸問題的惡化，許多與房屋相關的行業的股票、債券受到影響，按揭證券化資產的價格下跌，給對沖基金貸了很多錢的銀行開始要求收回貸款，並且要求對沖基金增加抵押資產，這使得有些量化基金不得不平倉止損。但是因為它們的部位相似，槓桿通常很高，一家開始平倉會引發連鎖反應，使那些被做空的股票價格螺旋上升，那些被做多的股票價格螺旋下降。這也說明了一個問題：股票被統計套利盯上本身已經變成了一個風險因素，但是統計套利的複雜模型則沒有考慮到這一點。在最近5年裡，過去採取超短線高頻統計套利策略的基金，包括復興技術和 DE 肖爾公司開始使用比較長線的模型，主要是為了增加交易容量，減少統動性風險。但是，使用傳統比較長線的股票多空策略的基金開始使用比較短線的模型，因為它們的技術能力在提高，這樣做也是為了使風險多第7章颶風裡行船隻往後看元化。多空策略基金的數量也大幅度增加。全球很多市場上，共同基金紛紛推出了一類新的基金產品，叫130：30 基金，這類基金可以做空30%的倉位，做多130%，從而保持共同基金淨槓桿最多不超過100%的限制，但是同時又介人了對沖基金的領地：股票多空策略。所有的這些策略，雖說細節各異但都是按照馬科維茨的理論來構建投資組合的，採用的歷史資料大同小異，所以這些林林總總的基金持貨相近不足為奇。即便是那些按照宏觀方法投資的基金也常常會採用類似的理論來構建投資組合，所以當小的波動出現，龐大的人流一起沖向大門時，很多基金會損失慘重。 211 警鐘還是喪鐘那這是不是量化投資的喪鐘呢？前面提到過的高盛量化基金的創始人之一，後來另立門戶單幹的量化基金管理人阿斯尼斯在給投資人的信中寫道：“有時候我會聽到人們用很概括的話說：‘看，這正說明電腦模型是要賠錢的。’這句話沒有錯，電腦模型賠了錢。沒有一個永遠不賠錢的電腦模型。最近的事件並不能說明模型出了問題，而只是說明某個交易策略過分擁擠。在過去，很多量化的和非量化的投資策略也出現過類似的問題，當大家都擠著要出門的時候免不了會有傷痛。” 對於統計套利策略的相似性，一位復興技術的管理人員在接受採訪時說：“當你認為自己找到了靈丹妙藥的時候，別人可能也找到了。”但是他說各種統計套利策略之間的關聯絡數並不像媒體報道的那樣高，只有15% 左右，問題的關鍵是很多基金採取很高的槓桿，新的基金又在不斷加人，所以這種策略整體風險增高。當市場處在非常時期，熒光屏上的價格不再有什麼意義，因為流動性沒有了。壓水花的技術再好，也需要水呀。我們認為，不能因為統計套利策略的失敗而將所有的量化投資行業一

212 解讀量化投資：西蒙斯用公式打敗市場的故事棍子打死。隨著這個行業的發展，現在很多量化授資技術不再是復興技術、大本營或者 DE 肖爾的專利，很多共同基金也使用各種量化投資方法，當然共同基金一般不會用很高的槓桿或者用風險比較高的策略。比較常見的用於共同基金的量化技術包括中長期的趨勢追蹤、依靠公式來選股的價值投資模型（還記得我們前面說過的法瑪回報因子吧）、使用佈菜克-舒爾斯默頓方法的保本技術模型（即上一章說過的投資組合保險）、使用馬科維茨的方法來自動進行行業間的配置和資產配置調整技術，等等。最近一兩年，量化投資經常出現在報紙上，但一般都是在負面的報道中，人們把從市場波動性到股票沽空的壓力再到整個金融危機都歸咎於量化投資，這當然是有失公允的。很多使用量化投資的共同基金並沒有給市場帶來任何破壞，而是為投資人提供了進一步多元化的選擇，所以是好事。當從事統計套利的量化基金遭到血洗的時候，有人統計，美國25家投資美股的量化共同基金中有19家回報好於標準普爾。共同基金的低槓桿或者無槓桿當然是這些量化投資風險較低的一個重要原因，另外，對沖基金通常使用量化技術來積極交易，而共同基金則使用量化技術來尋找比較長期的機會，這也是它們風險不同的一個原因。資料探勘除了跟演算法交易或者高頻交易關係更為緊密的市場容量這個問題之外，量化投資還有另外一個潛在的致命問題，那就是資料探勘。資料探勘指的是從大量的資料中發現潛在的、不明顯的有用資訊、模式和趨勢的方法，一般透過計算機完成。在金融行業裡面資料探勘的目的是透過過去來預測未來，資料探勘的方法現在被用在很多其他行業，如：消費者習慣、犯罪調查、藥物分析、基因研究等。谷歌公司在你的搜尋或者電郵頁面放上相對應的廣告，也是一種資料探勘。

第7章颶風裡行船隻往後看其實，資料發掘也沒有什麼神秘的，人們研究資料從中尋找規律的行為人類使用資料來記錄資訊的歷史一樣長。這種方法是在最近30年才有了驚人的發展，原因當然是電腦技術的發展和資料量的大幅提高（而且使用資料的方便程度提高、成本大幅度下降）。將本來是人做的事情交給電腦來做，效率的提高是肯定的。但是隨之出現的一個問題就是過度的挖掘，所以有時候人們提到資料探勘的時候常常是有貶義的味道：如果你盯著一個東西看久了的話，你就會看到本來不存在的規律。或者套用一句統計學家常說的話：“如果你把資料折磨到一定程度，資料什麼都會招的”。英文裡面為了區分貶義的資料探勘，常常將那類有些過頭、缺乏依據的做法叫 “資料窺視”。維基百科上有一個關於資料窺視的例子，隨便找 367個人，其中肯定有兩個人的出生月份和日子相同，比如張三和李四，都是3月17日出生，資料窺視者就可能會進一步去“挖掘”張三和李四的相似點：老婆姓什麼？愛犬叫什麼？女兒是不是彈鋼琴？等等。掘地三尺，總會發現他們兩個有共同點，比如小學3年級都留過一次級，資料窺視者的結論就是：3月17日出生的人小學3年級留級的可能性比較大。 213 “牛”市在量化資料分析中有一個很容易犯的錯誤是資料窺視，將巧合當成規律：牛頭來自雛基媒體。

214 解讀量化投街：西蒙斯用公式打敗市場的故事當然我們很容易看出這個結論的可笑之處，但是量化投資的很多分析方法所得出的結論都可能犯同樣的錯誤，不過要發現那些錯誤就不那樣容易了，很多投資人或者基金管理人都是在賠了很多錢之後才發現他們成了資料窺視的受害者。隨便翻開任何一本量化投資或者技術分析的書，或者翻開銀行以及基金的銷售材料，裡面都有很多這樣或者那樣的模型在過去多少年間是如何盈利的圖表，這類圖表一般都是一條比較平滑的、向上的曲線，代表著你的1元錢的投資如何連蹦帶跳變成十元或者百元的，就像大獎章的歷史投資回報，那也是一條比較平滑、向上的曲線。那麼是不是你如果照本宣科、將書上的策略拿到實際中去投資也能變成鉅富呢？或者，你將錢投到銀行、基金的很吸引人的銷售材料所說的產品裡面就能一本萬利呢？當然這是有可能的—就像你今天出門的時候被一麻袋錢絆了個跟頭一樣，這也是有可能的，但可能性都不大。西蒙斯的歷史回報曲線是真實的1美元在歷史上是如何變成600 美元的，而絕大部分的書裡面或者銷售材料中的曲線則是模擬出來的。模擬不是欺騙：如果歷史上你真是按照書裡面所說的模型投資的話，如果模型考慮到了各種交易成本的話，你的1美元錢的確能變成圖上面的幾百美元、幾千美元。關鍵的字眼是“歷史上”；如果時光能夠倒流，你突然回到幾年前，那時候的書本上有著千千萬萬個不同的賺錢模型，那時候銀行或者基金的銷售材料也有很多回報誘人的產品，你會選這個後來能一鳴驚人的產品嗎？如果你知道後面將會出現的結果，你當然會一口認定這個模型。可是當年你不知道的時候呢？今天你面前只有這個過去回報很好的模型來勾引你的原因是：模型的設計人已經根據後來出現的情況把那些你過去可能選擇的但是會賠錢的千千萬萬個模型都扔掉了。換句話說，這個模型只適用於設計人所選擇的367個人中的張三利李四，模型的結論很可能是透過資料窺視得出來的。量化分析的過其實就是透過過去的資料窺視將來的過程，所以資料

第6章更高、更強、更快