導(dǎo)讀:所謂另類(lèi)數(shù)據(jù),有別于普通或者常規(guī)的數(shù)據(jù),是那些比較小眾還沒(méi)有被大規(guī)模挖掘使用的數(shù)據(jù)。接下來(lái)我會(huì)給大家介紹另類(lèi)數(shù)據(jù)挖掘在當(dāng)前工程、以及交叉領(lǐng)域的一些前沿進(jìn)展,最后還會(huì)給大家介紹我們課題組在風(fēng)險(xiǎn)建模方面的一些研究成果。
01何為另類(lèi)數(shù)據(jù)挖掘(一個(gè)200年前的例子)
在19世紀(jì),倫敦爆發(fā)了一場(chǎng)非常嚴(yán)重的霍亂疫情,造成了四萬(wàn)多人的死亡。當(dāng)時(shí)學(xué)界普遍認(rèn)為這場(chǎng)瘟疫的源頭是瘴氣,比如垃圾堆的氣體等。有一個(gè)年輕的醫(yī)生叫約翰·斯諾,他對(duì)這個(gè)觀點(diǎn)不是特別的認(rèn)同,因?yàn)樗?jīng)在在倫敦較為臟亂的環(huán)境中生活過(guò),也接觸到了所謂的瘴氣,但是他發(fā)現(xiàn)他本人包括他周?chē)娜瞬](méi)有因此而感染霍亂。
約翰·斯諾當(dāng)時(shí)做了一個(gè)非常令人震撼的工作,他每家每戶(hù)的去走訪,去調(diào)研在每戶(hù)地址里面感染霍亂的人員數(shù)量,然后在相應(yīng)的地圖位置進(jìn)行記錄。大家可以看到下面這個(gè)圖上有一些黑色的條,一個(gè)條代表一個(gè)感染的病例,這個(gè)條越高,就代表地址的病例越多,一張霍亂傳染病的疫情地圖就這樣繪制出來(lái)了。
這個(gè)圖在現(xiàn)在司空見(jiàn)慣,但是在當(dāng)時(shí)是非常領(lǐng)先的,他把感染數(shù)據(jù)和地圖數(shù)據(jù)融合在了一起,試圖通過(guò)這樣一個(gè)數(shù)據(jù)挖掘和可視化的方式,去找到疫情的來(lái)源。通過(guò)這個(gè)疫情地圖,他發(fā)現(xiàn)感染的中間核心區(qū)域有一個(gè)水泵。周?chē)木用穸紩?huì)從水泵去取水,然后他就懷疑是這個(gè)水泵受到了污染。約翰·斯諾就向倫敦市zf建議,把這個(gè)水泵拆掉,這樣民眾只能從其他的地方去取水。之后很快這塊街區(qū)的疫情就得到了遏制。
在19世紀(jì),倫敦的生活用水和生活污水沒(méi)有做很好的隔離,可能會(huì)出現(xiàn)飲用水被污染的情況,所以約翰·斯諾也因此向倫敦市zf建議去修建地下的下水道系統(tǒng)。從某種程度上來(lái)說(shuō),這樣一個(gè)另類(lèi)數(shù)據(jù)挖掘的工作,也推動(dòng)了社會(huì)的進(jìn)步。
02當(dāng)前另類(lèi)數(shù)據(jù)挖掘(Nature:與人類(lèi)辯論的AI)
另類(lèi)數(shù)據(jù)挖掘發(fā)展到今天,已經(jīng)可以去做一些人類(lèi)能做的事情,甚至在某種程度上,它可以去超越人類(lèi),大家可能比較熟悉的例子是之前谷歌的AlphaGo。今天給大家分享一個(gè)例子,是刊登在2021年3月18號(hào)自然雜志上的封面文章,來(lái)自于IBM,叫做Debater,一個(gè)人工智能的辯論系統(tǒng),能夠和人類(lèi)的辯手展開(kāi)真實(shí)的辯論賽。
這個(gè)項(xiàng)目歷時(shí)十年,中國(guó)、美國(guó)、以色列三個(gè)國(guó)家,大概有四五十的科學(xué)家投入研發(fā)出這樣一個(gè)系統(tǒng),我當(dāng)時(shí)也非常有幸參與到了這個(gè)項(xiàng)目中。以下是當(dāng)時(shí)媒體對(duì)Debater的一個(gè)報(bào)道圖片,就是中間這個(gè)黑色東西,在它的右側(cè)是一個(gè)人類(lèi)辯論冠軍,他們展開(kāi)了一場(chǎng)辯論。
Debater用到了深度學(xué)習(xí)技術(shù),自然語(yǔ)言處理技術(shù),和自然語(yǔ)音生成技術(shù),當(dāng)然還有數(shù)據(jù)挖掘的技術(shù)。這個(gè)系統(tǒng)主要用到了兩方面數(shù)據(jù):新聞文本加上維基百科。他們希望能夠在這樣的數(shù)據(jù)里面,挖掘出相應(yīng)的論點(diǎn)和論據(jù),然后組成可以用于辯論的材料。下圖左邊這個(gè)模塊里面有一個(gè)工作叫做Wikification,用于把新聞文本變成類(lèi)似于維基百科那樣的一個(gè)鏈接式的知識(shí)庫(kù)。通過(guò)命名實(shí)體識(shí)別(NER),找到這些關(guān)鍵的信息,和現(xiàn)成的知識(shí)庫(kù)(例如維基百科)進(jìn)行關(guān)聯(lián)。我當(dāng)時(shí)參與了其中去歧義的部分工作,比如找到了一個(gè)關(guān)鍵詞:蘋(píng)果,那它指的是蘋(píng)果手機(jī)還是吃的蘋(píng)果,需要進(jìn)行分析辨別。歷史人類(lèi)辯論賽的數(shù)據(jù)記錄。他們希望通過(guò)挖掘這樣的歷史辯論記錄,能夠提從中提取出辯論的套路,讓機(jī)器了解到如何去開(kāi)展一個(gè)辯論。把這個(gè)辯論的論點(diǎn)和論據(jù)結(jié)合的套路,形成了自己的辯論內(nèi)容,這個(gè)也是系統(tǒng)相對(duì)比較重要的部分。
03另類(lèi)數(shù)據(jù)與交叉研究(Science:衛(wèi)星數(shù)據(jù)與貧困)
在經(jīng)濟(jì)金融研究方面,另類(lèi)數(shù)據(jù)挖掘也是有著令人激動(dòng)的一些進(jìn)展。下面給大家介紹一篇文章,來(lái)自于斯坦福大學(xué)的團(tuán)隊(duì)16年發(fā)表在Science雜志上,他們用衛(wèi)星圖片數(shù)據(jù)去預(yù)測(cè)一些經(jīng)濟(jì)指標(biāo)。他們的研究背景是想去消除貧困的人口,或者是對(duì)全世界上這些貧困的人口,進(jìn)行相應(yīng)的幫助和扶貧。
但是因?yàn)樨毨У膰?guó)家的數(shù)據(jù)工作不是很健全,導(dǎo)致可靠的貧困相關(guān)數(shù)據(jù)的缺失,無(wú)法去精準(zhǔn)地制定扶貧政策,給人類(lèi)的扶貧造成了一些困難?茖W(xué)家就通過(guò)一些另類(lèi)數(shù)據(jù)挖掘,試圖去擬合出真實(shí)的貧困的情況。
他們主要的想法就是用衛(wèi)星圖片的公開(kāi)數(shù)據(jù)建立模型,去預(yù)測(cè)貧困的指標(biāo)。通過(guò)衛(wèi)星拍攝地表的情況,通過(guò)計(jì)算機(jī)視覺(jué)的各種手段(CNN)得到它相對(duì)低維的一個(gè)特征表示,比如樓房的密度、荒蕪的程度等,把這樣的一些信息特征X聚合起來(lái),再和這些代表貧困的一些經(jīng)濟(jì)指標(biāo)Y進(jìn)行關(guān)聯(lián),訓(xùn)練模型。
但這些Y標(biāo)簽其實(shí)是不具備的。因?yàn)閷?duì)于不同的國(guó)家,它的GDP的數(shù)據(jù)不一定可以直接比較,而且GDP的分辨率也不高,只能精細(xì)到國(guó)家的級(jí)別,但是他們甚至想知道某一個(gè)城市甚至城市里某一個(gè)區(qū)域的級(jí)別,這個(gè)時(shí)候GDP的數(shù)據(jù)可能就幫不上忙,而且GDP的數(shù)據(jù)可能要一年才能更新一次。
后來(lái)他們找到了一個(gè)代替品,“夜晚的光照強(qiáng)度”,這個(gè)數(shù)據(jù)實(shí)際上也是來(lái)自于衛(wèi)星照片,因?yàn)橐恍┭芯恳呀?jīng)發(fā)現(xiàn),夜晚的光照強(qiáng)度和當(dāng)?shù)氐慕?jīng)濟(jì)發(fā)展水平有比較強(qiáng)的正相關(guān)性。它有很好的連續(xù)性,相對(duì)客觀而且是可比較的。這樣的衛(wèi)星數(shù)據(jù),甚至可以做到一天就能更新一次,是一個(gè)非常精細(xì)和客觀的代替指標(biāo)。
但夜晚的光照強(qiáng)度,沒(méi)有辦法直接用來(lái)估計(jì)貧困指標(biāo)。如下圖所示,橫軸是不同地方每天的平均資源消耗,縱軸就是夜晚光照強(qiáng)度?梢钥吹皆谥虚g它擬合的情況還可以,誤差相對(duì)較;但是頭尾兩側(cè)的誤差其實(shí)是很大的;其實(shí)也可以理解,因?yàn)樨毨У暮吞貏e貧困的地區(qū),夜晚一般都是黑的;富裕的和特別富裕的地區(qū),都是最亮的;所以在兩種極端的情況下,它沒(méi)有特別好的區(qū)分度,但是在中間它有比較好的擬合效果。
然后他們就用中間這段數(shù)據(jù),關(guān)聯(lián)上之前的X特征(樓房的密度、區(qū)域開(kāi)發(fā)程度等),訓(xùn)練了一個(gè)模型,拿這個(gè)模型去預(yù)測(cè)了非洲五個(gè)國(guó)家的貧困指標(biāo),效果確實(shí)很好,如下圖所示。他們通過(guò)這個(gè)方式,彌補(bǔ)了貧困國(guó)家在調(diào)研數(shù)據(jù)方面的不足,可以幫助更好地去做扶貧工作。
04另類(lèi)數(shù)據(jù)與風(fēng)險(xiǎn)(二級(jí)市場(chǎng)風(fēng)險(xiǎn)捕捉與建模)
下面來(lái)看一下我們課題組在對(duì)另類(lèi)數(shù)據(jù)的利用,以及對(duì)風(fēng)險(xiǎn)監(jiān)管方面的一些工作。這里的風(fēng)險(xiǎn)主要是針對(duì)的二級(jí)市場(chǎng),比如股票市場(chǎng)的風(fēng)控和建模。主要會(huì)介紹兩個(gè)工作。
1.突發(fā)風(fēng)險(xiǎn)事件的監(jiān)測(cè)和市場(chǎng)監(jiān)管
近些年國(guó)際上經(jīng)常會(huì)發(fā)生一些突然的風(fēng)險(xiǎn)事件,比如說(shuō)大家印象深刻的911事件,還有2011年的福島核泄露等,這些事件發(fā)生之后,對(duì)于當(dāng)?shù)匾约叭虻慕鹑谑袌?chǎng)都造成了非常大的沖擊。據(jù)我們的統(tǒng)計(jì),從2000年以來(lái),全球每年都會(huì)有超過(guò)6500起的恐怖襲擊,178次以上的大型地震,還有一些其他的自然災(zāi)害,所以它并不是一個(gè)偶發(fā)的事件。
所以我們能不能及時(shí)地去發(fā)現(xiàn)這樣的風(fēng)險(xiǎn)事件,從信息源里面去提取事件的主要信息,然后通過(guò)我們掌握的信息,去實(shí)時(shí)地預(yù)測(cè)這個(gè)事件對(duì)市場(chǎng)產(chǎn)生的影響,主要分為以下兩個(gè)步驟:市場(chǎng)模型的建立。這個(gè)模型的輸入就是發(fā)生的風(fēng)險(xiǎn)事件及其主要信息特征,輸出就是市場(chǎng)根據(jù)這樣的事件會(huì)產(chǎn)生什么樣的反應(yīng),是下跌以及下跌多少這樣一個(gè)具體的反應(yīng)。這一部分我們主要依賴(lài)于歷史事件數(shù)據(jù)庫(kù),因?yàn)閷?duì)于自然災(zāi)害,包括像剛剛提到的恐怖襲擊,有非常詳實(shí)的歷史數(shù)據(jù)。我們可以利用歷史數(shù)據(jù)以及更詳實(shí)的市場(chǎng)行情數(shù)據(jù)去建立我們的預(yù)測(cè)模型。在模型的選擇上,常見(jiàn)的機(jī)器學(xué)習(xí)模型都可以放在里面去使用。事件的實(shí)時(shí)發(fā)現(xiàn)。因?yàn)閯偛盘岬降臍v史的事件庫(kù),其實(shí)不是實(shí)時(shí)的,它可能是有非常長(zhǎng)的一個(gè)時(shí)間差的,比如說(shuō)我今年才能拿到去年的歷史數(shù)據(jù),那么對(duì)于市場(chǎng)的預(yù)測(cè)來(lái)說(shuō),這樣的時(shí)間太長(zhǎng)了。這部分我們主要是通過(guò)對(duì)實(shí)時(shí)新聞的分類(lèi)及信息提取,先抽取了三個(gè)大類(lèi)別恐襲,自然災(zāi)害,傳染病,及其相對(duì)應(yīng)的12個(gè)小類(lèi)別,它們具體的信息,包括時(shí)間,地點(diǎn),傷亡人數(shù)等信息。接下來(lái)我們把這個(gè)實(shí)時(shí)事件的主要信息輸入到市場(chǎng)模型里面,它會(huì)告訴我們下一步市場(chǎng)會(huì)怎么樣,具體走勢(shì)會(huì)是怎么樣。
然后我們希望能夠從多個(gè)角度去描摹捕獲到的這些事件,所以里面還使用到了之前提到的夜晚光照數(shù)據(jù)。因?yàn)閺闹庇X(jué)上來(lái)想,如果說(shuō)兩個(gè)造成了同樣傷亡的類(lèi)似風(fēng)險(xiǎn)事件,但是一個(gè)發(fā)生在相對(duì)發(fā)達(dá)的地區(qū),另外一個(gè)發(fā)生在不那么發(fā)達(dá)的地區(qū),那么這兩個(gè)事件對(duì)于金融市場(chǎng)的影響可能是不一樣的,所以我們就希望通過(guò)夜光的數(shù)據(jù)去對(duì)不同經(jīng)濟(jì)發(fā)展水平的地點(diǎn)做描摹。
我們選定了一個(gè)特定的事件:恐襲。然后選定了三個(gè)觀測(cè)的國(guó)家:以色列,西班牙,還有哥倫比亞,因?yàn)樗麄冇斜容^健全的金融系統(tǒng),并且這些國(guó)家每年還是會(huì)遭受恐襲的侵?jǐn)_。我們使用馬里蘭大學(xué)建立的GTD開(kāi)源數(shù)據(jù)庫(kù),它收錄了1970年至今全球恐怖襲擊的信息,具體包括了135個(gè)事件相關(guān)的特征。接下來(lái)我們采用了路透社的新聞數(shù)據(jù),大概在900多萬(wàn)的量級(jí)。我們通過(guò)這個(gè)數(shù)據(jù)去模擬實(shí)時(shí)獲取的新聞,然后進(jìn)行事件的發(fā)現(xiàn)和抽取。
在做模型之前,我們通過(guò)一些數(shù)據(jù)的分析,發(fā)現(xiàn)當(dāng)市場(chǎng)下跌越多的日子中,發(fā)現(xiàn)它發(fā)生恐怖襲擊的比例就越高。如下圖所示,B這個(gè)點(diǎn),它所表示的就是所有市場(chǎng)跌幅超過(guò)3.4%的日子里面,有10.3%的比例發(fā)生了恐怖襲擊;當(dāng)市場(chǎng)的跌幅更大,我們看到A這個(gè)點(diǎn),當(dāng)市場(chǎng)的跌幅都超過(guò)4.1%的話,對(duì)于這些日子而言,發(fā)生了恐怖襲擊的概率有12.9%,所以我們就發(fā)現(xiàn)恐怖襲擊對(duì)市場(chǎng)確實(shí)存在影響。
通過(guò)分析,還發(fā)現(xiàn)經(jīng)濟(jì)越發(fā)達(dá)的地方發(fā)生恐襲,它就越可能發(fā)生市場(chǎng)的下跌呢。從下面這個(gè)圖上,我們也可以看到A這個(gè)點(diǎn),它表明的就是夜光100以上的地點(diǎn),發(fā)生恐襲的話,會(huì)有49.3%的概率市場(chǎng)會(huì)發(fā)生下跌;當(dāng)我們看到經(jīng)濟(jì)更發(fā)達(dá)的地方就是B這個(gè)點(diǎn),對(duì)于夜光強(qiáng)度230以上的地區(qū)來(lái)說(shuō),如果說(shuō)它們發(fā)生恐襲,將有53%的概率市場(chǎng)會(huì)發(fā)生下跌。所以說(shuō)也說(shuō)明了夜光數(shù)據(jù)在這個(gè)問(wèn)題上的影響。
接下來(lái)就是具體的實(shí)驗(yàn)了,我們用了各種分類(lèi)模型,模型準(zhǔn)確率最高做到了接近70%。最后采用的是決策樹(shù)模型,因?yàn)閺慕忉屝缘慕嵌龋瑳Q策樹(shù)模型它會(huì)有更好的表現(xiàn)。它可以告訴我們機(jī)器做出這樣的判斷,具體的原因是什么。黑箱模型往往只要做對(duì)就好,不負(fù)責(zé)解釋原因。一旦出現(xiàn)問(wèn)題,我們很難在很短的時(shí)間內(nèi)進(jìn)行故障排查。
2.國(guó)際政要的推文與市場(chǎng)預(yù)測(cè)
課題背景:越來(lái)越多的國(guó)際政要,他們會(huì)使用社交媒體進(jìn)行發(fā)言。他們的發(fā)言對(duì)于國(guó)際局勢(shì)的研判,包括金融市場(chǎng)的方向,有著非常重要的意義。
美國(guó)的前總統(tǒng)特朗普,他發(fā)表了大量的推文,當(dāng)時(shí)有著超過(guò)6000萬(wàn)的關(guān)注者。他有時(shí)候會(huì)表達(dá)對(duì)某一些公司及其產(chǎn)品的看法,比如他對(duì)一個(gè)美國(guó)的軍火商發(fā)牢騷,覺(jué)得他們的戰(zhàn)機(jī)成本太高了,該軍火商的市值就應(yīng)聲下跌;在他執(zhí)政的中后期,非常關(guān)注和中國(guó)的關(guān)系,推文中有很多關(guān)于中國(guó)的內(nèi)容,就在19年的時(shí)候,他發(fā)表了很多關(guān)于中國(guó),尤其是涉及中美關(guān)稅的內(nèi)容,當(dāng)時(shí)確實(shí)對(duì)全球市場(chǎng)造成了一些擾動(dòng)。
但一個(gè)人是非常難以快速全面的去了解并處理這些推文,那么是不是能夠用機(jī)器去做這個(gè)事情,機(jī)器了解了推文內(nèi)容之后,再自動(dòng)的去判定推文對(duì)市場(chǎng)會(huì)產(chǎn)生什么樣的影響?我們就據(jù)此列了幾個(gè)研究的問(wèn)題,推文的背景信息是什么?是什么原因讓他去發(fā)了這條推文?以及推文后續(xù)會(huì)產(chǎn)生的影響等等。
我們擬定的一個(gè)研究框架,實(shí)際上它的大體思路和我們之前提到的辯論系統(tǒng),有一些相似之處。一條推文過(guò)來(lái),我們會(huì)先對(duì)它進(jìn)行一個(gè)命名實(shí)體識(shí)別,知道它里面有哪些關(guān)鍵的實(shí)體詞語(yǔ),這些實(shí)體詞又和維基百科相應(yīng)的概念是如何去產(chǎn)生對(duì)應(yīng)的,做一個(gè)實(shí)體的鏈接,進(jìn)行知識(shí)的補(bǔ)充。然后我們也會(huì)對(duì)推文做一些情感分析,識(shí)別它是正面、負(fù)面還是中性的推文。接著我們會(huì)用外部的新聞和推文做一個(gè)關(guān)聯(lián),尤其是他情緒的一些新聞。我們通過(guò)這樣的關(guān)聯(lián)可以去找到他發(fā)表這條推文可能的原因,中間也涉及到一些因果推理的工作。基于這個(gè)基礎(chǔ)上,我們希望能夠把推文的解讀和市場(chǎng)行情的變化產(chǎn)生關(guān)聯(lián),從而能夠?qū)κ袌?chǎng)的風(fēng)險(xiǎn)產(chǎn)生一些預(yù)警,當(dāng)然這還是在進(jìn)展中的一個(gè)工作。
05簡(jiǎn)單的回顧
今天聊到了什么是另類(lèi)數(shù)據(jù),什么是另類(lèi)的數(shù)據(jù)挖掘,也講了一個(gè)200年之前的例子,隨后我們介紹了最新的研究及工程上的一些進(jìn)展,在后面還介紹了我們課題組在數(shù)據(jù)挖掘和市場(chǎng)風(fēng)險(xiǎn)建模之中的一些工作。希望這些內(nèi)容能夠起到拋磚引玉的作用。非常期待和大家做更深入的交流,也希望大家能夠通過(guò)對(duì)另類(lèi)數(shù)據(jù)的挖掘,找到至關(guān)重要的“水泵”,從而推動(dòng)手上的工作,甚至是人類(lèi)社會(huì)的進(jìn)步。
今天的分享就到這里,謝謝大家。
在文末分享、點(diǎn)贊、在看,給個(gè)3連擊唄~
分享嘉賓:
分享嘉賓:張海鵬博士 上?萍即髮W(xué)
編輯整理:李冠 百維金科
出品平臺(tái):DataFunTalk
添加小助手鏈接:https://wpz.h5.xeknow.com/s/1TDwk4
1.免費(fèi)資料領(lǐng)。狐c(diǎn)擊上方鏈接添加小助手回復(fù)【大數(shù)據(jù)合集】免費(fèi)領(lǐng)取《大數(shù)據(jù)典藏版合集》
回復(fù)【算法合集】免費(fèi)領(lǐng)取《互聯(lián)網(wǎng)核心算法合集》
2.添加交流群:點(diǎn)擊點(diǎn)擊上方鏈接添加小助手回復(fù)【大數(shù)據(jù)交流群】加入“大數(shù)據(jù)交流群”
回復(fù)【算法交流群】加入“算法交流群”