另類數據的全面解析與24種場景應用!

什麼是另類數據?

另類數據是投資過程中使用的非傳統數據,它使得越來越多以前無法收集的信息變成了可以分析的數據 ,而從這些雜亂無章的信息中找到規律的能力也變得無比強大。 

另類數據是用於金融交易的非傳統性數據,可以尋求全球量化獨有價值,並獲取超額的市場收益。它是傳統金融數據的補充,可以提供不同視角的市場洞察,提升數據模擬準確性。另類數據在金融領域的作用比喻爲“新石油”,因其就像石油對於國民經濟的重要性一樣。

引爆點

另類數據並不新鮮。幾年來,有超過50家公司一直在使用替代數據。然而,2017年是替代數據空間的轉折點,因爲資產更廣泛管理行業開始將其整合到投資過程中。在我們看來,另類到2018年/ 2019年第一季度末,數據空間將“跨越鴻溝”(臨界點)。

另類數據的優點

優點

  • 另類數據集正在被整合到投資過程中,主要是因爲它們提供了一個與傳統數據集相比,更大量的數據和信息提供了無法預見的洞察力
  • 數據提供更加及時,時效性更強。

另類數據的類別和使用場景

下面我們將重點介紹24種另類數據在每種應用的一些應用場景。對於每個類別,在數據庫中都說明相關數據集的數量。

1.廣告(23個數據集): 主要是跟蹤在企業投放廣告的各類平臺及活動上花費的時間。廣告數據交換基於其互聯網瀏覽習慣隨時間具有關於消費者興趣的數據。該數據可用於跟蹤類別流行度,例如豪華產品和金融產品、抵押貸款、汽車、網絡安全等。但是這類數據使用得很少,但是其潛力很大。此類別中的另一種類型數據來自監測跟蹤,電視和在線媒體。這些數據更多的是樣本或者預估。不過,他可以用來跟蹤企業營銷信息。

2.應用程序使用和Web流量(44個數據集):可以使用在線和移動的Web瀏覽流量估算公司收入。移動應用使用情況數據跟蹤使用應用的下載次數和使用時間。在以前該另類數據常常衡量社交媒體平臺,手機遊戲,媒體提供商,電子商務的受歡迎程度。移動應用評論的趨勢也可以幫助分析師評估產品的成功。國家特定數據可以提供國際產品採用的見解。投資者也可以跟蹤應用程序中嵌入的服務,如支付提供商和廣告服務。應用程序用法和網絡交通數據經常是不穩定的,並且在許多情況下,消費者可以提供更準確的信號交易數據。

3. B2B(25個數據集):各種數據聚合器提供有關企業B2B商務的數據集,包括供應鏈分析。其中一些數據集與一系列行業相關,例如監控企業級互聯網瀏覽情況和阿里巴巴B2B貿易指數的企業數據。其他數據集提供基礎信息,例如工業材料數據庫和石油數據庫合同和鑽探特許權。

4.業務洞察(156個數據集):一組異構數據集,提供獨特的見解。一個例子是利用另類數據跟蹤公司間業務連接的數據集。其他數據提供商跟蹤信用質量相關的業務活動或將機器學習技術應用於大型大量彙總數據,以識別面臨失敗風險的公司。自然語言應用於企業通信文本數據的處理算法也屬於這一類。

5.消費者信貸(13個數據集):市場借貸數據每天經常更新,顯示貸款發放金額,貸款定價,借款人信用質量和違約水平。其他數據提供者在特定國家/地區跟蹤消費者信用質量。這些另類數據通常比以前更及時,可用於確定消費者信貸的動態。

6.消費者交易數據(30個數據集):這些數據來源廣泛,可以提供商家級交易數據(例如零售商,航空公司,服務提供商),產品級購買數據(例如食物,飲料,電子產品)和宏觀水平數據。一些數據來源,如信用卡交易數據,代表一個龐大的用戶羣。其他數據來源涉及較小的面板,例如2%消費者,但仍然提供可靠的信息。消費者交易數據經常用於估算數據的季度收入增長季度,企業盈利公佈前可用。投資者也可以使用消費者交易數據,用它來深入瞭解消費者的購買行爲。包括產品採用率“優質”產品購買趨勢促銷效果和折扣客戶人口統計和共同購買行爲。另外,付款處理諸如PayPal和Square的使用之類的數據在消費者交易數據中經常是可識別的。2018年4月,Eagle Alpha基於來自的數據推出了名爲RevCast的消費者交易數據集合夥人,是一家知名的消費者交易公司和在線搜索公司。

7.數據聚合器(96個數據集):技術創新使聚合器能夠收集數據來自不同的來源並以有助於資產經理的格式彙總數據。集合商可以挖掘深層網絡或及時分析政府的備案和發佈。其他聚合器可以運行可以購買數據集的交換機或平臺。

8.僱傭(19個數據集):職位發佈列表可用於評估公司戰略和方向,行業增長率和對特定技能的需求。例如,是需求具有TableauGoogle AdWords經驗,成長或穩定的候選人?另一個數據提供商跟蹤公司員工的變化,使分析師能夠識別出高企業員工流動率或銷售人員增長強勁的公司。

9. ESG(27個數據集):另類源可以提供對環境,社會和環境的洞察力公司的治理(ESG)標準。資產經理傾向於使用三種ESG特徵目的:

  • 評估對投資組合風險/收益的影響;
  • 及早識別風險;
  • 識別可持續主題爲alpha驅動程序,例如低碳,清潔能源和水,醫療保健和教育,可持續供應鏈等可以通過各種方式監控ESG標準數據類別,包括社交媒體,衛星,公開和公開數據。

此外,消息來源監控業務投訴,業務聲譽,員工薪酬和招聘趨勢也很有用。我們相信這是對話和分析難以建立完整的ESG框架不使用替代數據。一些供應商提供ESG數據生成評分的框架。例如,一個供應商掃描了數萬個非結構化Web源並組成ESG超過8,000家公司的得分。其他供應商提供允許ESG的特定數據集分析師專注於某個因素ESG框架。我們看到需求不斷增長後者作爲資產管理者開始在內部進行評分並創建自己的評分數據集的內部數據庫。

10.事件檢測(41個數據集):預警來自主要新聞線或社交媒體的突發新聞消息來源允許交易者在資產價格完全打折之前做出反應。其他事件受到監控包括了政府備案和天氣。

11.專家意見(10個數據集):任何行業或領域專家的見解與預測趨勢的專業知識與一般人和新聞提供的趨勢大不相同。通過博客和論壇分享的信息量使投資者難以合成所有的評論。自然語言處理(NLP)工具可以幫助總結情緒和話題。

12.地理位置(54個數據集):從移動設備派生的位置數據可以及時產生信息訪問趨勢。常見的行業應用包括遊樂園,零售商,餐館,酒店,旅行,運輸和房地產投資信託基金。除了觀察人流量水平外,這些數據還可以用於識別促銷和天氣事件的影響。跨品牌忠誠度和區域性特質可能是可識別的。地理位置數據提供商從移動應用程序接收位置數據所有者,藍牙連接和傳感器。

例如Whole Foods的人流量數據用於跟蹤降價情況。該提供商將全球移動電話的實時位置轉換爲客觀和對企業,市場和經濟表現的可操作見解。

 

13.物聯網(IoT)(13個數據集):由來自互聯網連接設備的數據組成。傳感器提供交通數據,可用於衡量房地產的當地經濟活動目的或跟蹤倉庫配送中心周圍的活動。傳感器可以提供有價值的農業作物健康信息。傳感器還可以跟蹤石油和天然氣管道中的流量。

14.在線搜索(17個數據集):由搜索引擎收集的有關數據的數據搜索的術語頻率。谷歌搜索和百度是最大的搜索提供商數據。已經進行了大量的學術研究發表了關於該數據的建立在線搜索量可以用作經濟活動指標,以及消費者對產品或產品的興趣指標話題。而且,這些研究表明了這一點,最佳指標通常用數據構建從一籃子條款而不是單一條款術語或少數術語。利用另類數據對複雜的數據進行科學技術分析用於確定最具指示性的搜索術語將這些術語組合成指標的有效模型。在線搜索數據已超過10年曆史,並及時提供。它的主題報道非常廣泛。

列如:2018年3月,Eagle Alpha使用Web Queries工具和Google Trends的數據對消費者使用三星Galaxy S9產品的推出興趣調查。指出消費者對三星S9的興趣低於其前身S8。缺乏許多功能的材料升級似乎導致了這種弱勢表現。超過50%的Twitter對話專注於相機和性能功能,相比之下關於S8發佈的新顯示器的興奮。此外,搜索興趣S9比S7更接近S7。這標誌着消費者對此的需求水平較低產品!

15.開放數據(80個數據集):大量數據可用作開放數據。CKAN,Comprehensive Knowledge Archive Network,是一個開放數據的非營利性註冊機構。 CKAN準備數據並以使數據更易被發現和可用的方式提供對數據的訪問。CKAN數據管理平臺正在被許多政府,組織和企業使用世界各地的社區。與投資者相關的開放數據示例包括:打開Charge Map API(谷歌地圖、騰訊地圖),允許用戶訪問電動汽車充電位置的數據站。Wayback Machine提供互聯網頁面的歷史存檔,在以下情況下可能很有用回填Web爬網程序的數據。GDELT項目提供了一個不斷記錄世界新聞媒體的印刷平臺,廣播和網絡格式的每個國家的每個角落,100多種語言,和提供新聞媒體內容的歷史檔案。

16.價格(104個數據集):現在,企業和消費者的商品和服務的狀況數據比過去更容易獲得。 這些數據可以提供有關企業收入和行業競爭的分析。 目前已經使用網絡爬行定價數據開發了替代的通貨膨脹措施。 此類別還包括房地產銷售、租賃。早在2014年CAI(中國汽車洞察)利用另類數據,就對中國國內汽車製造商長城汽車運用另類數據對其銷售情況進行了研究調查併爲其正確地預測了下半年報告收入的定向變動.

17.公共部門(55個數據集):政府機構發佈大量數據集,可用於衡量社會和經濟活動以及行業動態。 許多數據集提供了來自地方政府的精細數據以及國家層面的彙總數據。這些數據如果沒有很好的索引,使用可能性很大卻又會引起麻煩。 鑑於此,公共數據將是很好的前景應用。

18.評論和評級(27個數據集):可以收集在線發佈的產品和服務評論,並分析評級趨勢和經常提到的主題。大量的學術研究表明,消費者非常相信在線評論,而有利的評論通常會引起銷售增加。 與此同時,過度的負面評論和投訴可能是管理不善的跡象。 應用評論可以提供消費者對移動銀行等應用服務滿意度的見解。其他數據提供商通過整合各種來源來衡量消費者和B2B的意見,包括調查,從而追蹤品牌聲譽。

19.衛星(64個數據集):將衛星圖像分析處理爲數據或情報對資產管理者是非常有用的。它已被用作跟蹤工業的模型的數據源生產,特別是在缺乏及時信息的發展中國家。它可以使用跟蹤礦山,建築工地,工廠和零售點的活動。衛星數據也被用於估計石油和天然氣庫存和生產。同時已被可以準確地預測農業收穫狀況。除了衛星之外,無人機圖像的使用頻率也在增加。

利用另類數據國外一家公司利用衛星圖像數據,對停車場的車輛信息進行測試編目並重新測試了超過一百萬個停車場圖像,佔據了15億輛汽車超過七年。然後可以使用從衛星圖像獲得的交通數據進行分析累計同比車數增長率並將其與收入增長和股價動態進行比較。

20.情緒(63個數據集):由於其相對較長的歷史和柱狀時間序列結構,通過情感和新穎性對新聞提要和社交媒體帖子進行評分是一種流行的數據來源,特別是對於量化基金而言。 情緒評分可以應用於投資者評判消費者對產品和品牌的態度,或主流新聞提要。情感數據提供者除了將文章映射到諸如政府機構和公開交易公司之類的實體之外,還可以提供與主題新穎性,相關性,價格影響估計和動量相關的額外分數。數據可以應用於因子模型,也可以在動量和逆向交易策略中使用。

21.社交媒體(100個數據集):來自社交媒體平臺的數據可用於分析消費者趨勢,產品發佈狀況,品牌知名度,客戶滿意度,產品銷售促銷,社會和政治動態以及企業/客戶參與程度。利用該類數據品牌,越來越多的個人在社交媒體上與該品牌互動,已經證明了這一點良好的銷售勢頭,品牌實力往往是股價的驅動因素。

22.商店位置(14個數據集):跟蹤商店位置可以深入瞭解企業增長和戰略,特別是在跟蹤商店營業時間和促銷活動時。商店位置數據還可用於評估可尋址的市場規模和市場飽和度。

23.貿易(39個數據集):許多大型企業利用該類數據集進行國際收支估算,對主要商品市場的見解,國家競爭優勢的跡象和消費者實力的指標。以股票爲重點的策略使用貿易數據來衡量那些產品可以與特定商品的進口/出口相關聯並分析供應鏈活動的公司的銷售額。 貿易數據還可用於衡量運輸公司和公開交易港口的活動。

24.網頁抓取(69個數據集):網絡爬取是通過從公共URL請求信息的計算機程序來聚合價格,社交媒體,評級/評論,就業和商店位置數據的手段。 網絡爬取還用於監控企業網站的變化,例如反映戰略計劃的網站結構的擴建,某些產品線中增加的內容,增加的博客活動,促銷活動和地理擴展。
網絡爬取可用於監控提供特定服務(如太陽能裝置或軟件服務)的小衆電子商務站點和站點。有時可以通過網絡爬取很好地獲取有關政府備案的信息。 數據可以在內部收集,也可以由專門從事定製數據採集的公司採集。 包含歷史爬網數據的數據集已由專業的網絡採集公司進行爬取。

總結

儘管目前另類數據的應用仍面臨技術的侷限、較高的成本和監管不完善等問題,但隨着技術的發展,另類數據的應用也許會突破我們想象的邊界,在未來扮演更重要的角色,成爲傳統數據的重要補充,以及投資者提升決策質量的利器。同時,量化投資者也需要對數據背後的市場驅動因素有深刻的認識,才能在這場數據革命中立於不敗之地。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章