脫單攻略:數(shù)據(jù)教你精準(zhǔn)把到交大女神
摘要: 開學(xué)了,交個女朋友再自然不過。不過,對于和長者同為校友的上海交大學(xué)子而言,除了思考隔壁“華師大的姑娘真的那么可愛嗎”的誘惑外,還要飽受“你女朋友才是交大的呢”、”有個交大女朋友是怎樣一種體驗“的質(zhì)疑,甚至還有好事者編了首歌叫《交大無美女》。于是,作為交大的數(shù)據(jù)俠,張宏倫決定為本校的女生洗白……
文/DT財經(jīng) 張宏倫
交大女神,生活好;少吃晚飯,愛洗澡
“為什么要找交大女生做女友?”這個問題,其實知乎上已經(jīng)有不少神回復(fù)了。
我們利用現(xiàn)有上海交大的校園卡數(shù)據(jù),基于商戶信息、用戶信息、交易記錄、氣象記錄和校園網(wǎng)記錄五個數(shù)據(jù)集,來分析一下交大女生有何特質(zhì)。
由于校園卡消費人群具有許多特性,不同人群每周去食堂、超市、洗浴中心的次數(shù),以及在不同場所的花銷也不同,但總體來說人群會根據(jù)消費習(xí)慣的不同形成不同的類別。通過對校園卡消費人群進(jìn)行聚類分析,得出的結(jié)論是:“交大女神,生活好;少吃晚飯,愛洗澡?!?/strong>
(DT君OS:看到這里,DT君忍不住翻了一個白眼。但本著尊重作者的專業(yè)態(tài)度,DT君還是決定好好看下去……)
第1步:交大女生常在哪里出沒?
知己知彼,才能百戰(zhàn)不殆。
在男女比例為1:0.618的上海交大(注:本數(shù)據(jù)來自上海交大微信公號),要想捕獲一枚交大女神也不是那么容易。
首先,我們得先明確一下,她們都在哪兒出沒。
根據(jù)校園卡數(shù)據(jù),我們將全校消費的商戶信息分為以下幾類:
可以看出校園卡消費用戶大部分的消費記錄都集中在食堂(72.31%)上;此外洗浴及熱水(19.23%)和超市(6.86%)消費也占據(jù)了一部分,其他的消費記錄(其他服務(wù)、運動、圖書館)只占據(jù)了極小部分(1.60%)。
食堂的就餐行為占整個用戶的刷卡交易行為的72.31%,可見食堂就餐是一卡通持卡用戶交易最頻繁、交易量最大的消費行為。本著最大的可能性,從食堂里找交大女生最為容易了。
因此,我們將重點集中在餐飲消費數(shù)據(jù),來看看人群的行為習(xí)慣。
先來看看下面這張按照出現(xiàn)頻率統(tǒng)計的消費地點詞云:
由于每條消費記錄會包含一個窗口名稱,還有一個所屬食堂,所以我們很容易得出哪些食堂的哪些地方消費次數(shù)最多,營業(yè)額最高。
根據(jù)窗口信息匯總,最受歡迎的食堂非第三食堂莫屬。新閔行第三餐飲學(xué)生餐廳完成裝修后于2014年9月2日重新投入營業(yè)。在觀測時間范圍內(nèi),營業(yè)額為3793804元,在各子商戶中排名第一;消費人次達(dá)626013次,同樣位于第一。
而女生的總體商戶消費分布是長這樣子的(看不清沒關(guān)系,有個概念就好,接下來會有解釋):
可見,無論是小本、碩士、還是女博士,最受姑涼們歡迎的是閔行第三餐飲學(xué)生餐廳和教育超市(DT君OS:都說“玩在復(fù)旦,住在交大,吃在同濟(jì),愛在華師大”,如今交大女生是要逆天呀……)。
下圖給了你一個全景,讓你看看交大女生的總體消費習(xí)慣是怎么樣:
可以很明顯地看出,女生在就餐上的開銷總體大約比男生少600元,碩士和博士在就餐上的花費范圍也比本科生波動要大一些。
而本科生在超市和點心上的消費比碩士和博士更多,女生在水果和咖啡上的消費也比男生要多一些。
從消費次數(shù)分布可以看到更明顯的一些特征。男生人均比女生在食堂就餐的次數(shù)更多,女生比男生洗澡次數(shù)更多,本科生比碩士和博士生逛超市的次數(shù)更多。從本科到碩士到博士,所念學(xué)歷越高,學(xué)生在食堂就餐的最低次數(shù)逐漸降低,也許是因為忙于科研沒時間出去吃飯,所以養(yǎng)成了點外賣的習(xí)慣~
還有一個很出人意料的結(jié)論:各類用戶(男和女,本碩博)中都有在就餐方面消費總額和次數(shù)均為零的情況,他們從來不在食堂吃飯!
看完了這一節(jié),你至少知道如何在校園里,和為數(shù)不多的交大女生來一次大概率的偶遇了吧。
第2步:聚類分析劃定五類人,里面就有你要的女神
交大女生那么多?哪一款才是我們的女神呢?讓我們把交大學(xué)生做一次聚類分析。
聚類分析法是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,即根據(jù)事物某方面特性把它們劃分成為多個類別,使得屬于同一類別的個體具有相似的特性或比較高的相似度,而不屬于同一類別的個體具有不同的特征或比較低的相似度。同一類別的相似性越大,不同類別間差別越大,聚類效果就越好。
因為我們的數(shù)據(jù)集比較大,而涉及到的數(shù)值型的屬性比較多(消費數(shù)額,消費次數(shù)等),所以這里我們選用基于劃分的K-Means聚類。
聚類特征的選取很重要,考慮到對消費人群進(jìn)行畫像,我們選取學(xué)生在食堂、洗浴中心及超市的消費次數(shù)、平均消費金額作為特征。整理好數(shù)據(jù)集后我們查視一下數(shù)據(jù)集的格式:
我們從中選取數(shù)據(jù)的數(shù)值特征,為了保證可靠的方差分析,我們先用scale函數(shù)對樣本特征的取值范圍進(jìn)行歸一化,并繪制組內(nèi)方差圖選取合適的K值,下面的圖表現(xiàn)了不同K值下組內(nèi)方差的結(jié)果。x軸代表聚類個數(shù),y軸代表平均組內(nèi)方差。我們可以看到,當(dāng)聚類數(shù)目越大的時候,每組的組內(nèi)方差就越小。
可以看出當(dāng)聚類個數(shù)K>5后組內(nèi)方差下降趨勢變緩,同時也保證了K的數(shù)目足夠小,所以我們選取K=5為聚類個數(shù)。
利用R的kmeans函數(shù)可以很快實現(xiàn)K-Means,如下:
得到聚類中心后,我們可以可視化我們的聚類結(jié)果,我們不妨比較一下去食堂次數(shù)以及去超市次數(shù)的聚類散點圖:
可以從圖中看出形成了比較明顯的聚類,即屬于第三聚類的人群去超市次數(shù)多于其他各類,去食堂次數(shù)則相對較少,從生活習(xí)性我們可以推斷這些人可能是比較喜歡買泡面解決飲食的宅男們。
不妨再比較一下去食堂次數(shù)以及去洗浴中心等次數(shù)的聚類散點圖:
我們從圖中可以果斷的找出女神人群就是第一聚類,愛洗澡 生活有規(guī)律(去食堂) 女生占比大的種類,非女神莫屬!(DT君OS:大俠,你的口味好獨特哦?。?/p>
我們可以隨機(jī)抽取50個樣本,繪制聚類熱力圖,如下:
結(jié)合熱力圖和不同性別,不同學(xué)歷在各組間出現(xiàn)的比例,我們可以推測各個組的性質(zhì)。
就此我們可以得到這5類人群的畫像:
-
第一聚類:女神or男神,這一聚類女生比例較高,去食堂次數(shù)十分規(guī)律穩(wěn)定,而且注重個人衛(wèi)生,經(jīng)常去洗澡。
第二聚類:潛力股or學(xué)術(shù)帝,男生很多,博士生的比例最高,相對于第一類生活更規(guī)律,去食堂的次數(shù)更多。
第三聚類:宅男,這一聚類男生比例極高,去食堂的次數(shù)相對較少,反而經(jīng)常去超市,推測經(jīng)常購買的物品一定是泡面紙巾……
第四聚類:奇行種,去食堂、超市、洗浴中心的次數(shù)都很少,不知道他們每天都在哪里。
第五聚類:人民群眾,去食堂、超市、洗浴中心的次數(shù)都比較均衡,是我們廣大人民群眾中的一員。
顯然,我們要找的是第一種??蛇@里面竟然還有男的……(DT君OS:嗯其實找個干凈的男朋友也是不錯的,男生們你們不妨也考慮一下……)
第3步:精準(zhǔn)定位你的女神
見證奇跡的時刻到了。
究竟如何準(zhǔn)確定位女神呢?
我們將消費數(shù)據(jù)與第一聚類匹配,就得到第一聚類中女性(即女神!敲黑板畫重點?。┑南M頻次分布,如下圖:
接著,我們可以利用性別、入學(xué)年份、出生年份、學(xué)位類別、最常去的食堂、就餐均勻度、總就餐次數(shù)和工作日就餐比等特征,匹配自己的資料和就餐習(xí)慣,逐步縮小篩選范圍并最終鎖定目標(biāo)(哪怕數(shù)據(jù)已經(jīng)經(jīng)過了脫敏處理)。
根據(jù)當(dāng)下男生喜歡的類型,我輸入了“年齡?。?5后),本科生,女,愛洗澡愛逛超市,生活有規(guī)律”幾個條件,為你篩選出15個高顏值女神。
當(dāng)然,如果你覺得光是一卡通數(shù)據(jù)不夠精準(zhǔn)定位你的女神,還可以和校園網(wǎng)wifi數(shù)據(jù)結(jié)合起來挖掘,可以進(jìn)一步研究女神的特征,比如她們經(jīng)常訪問一些文藝的網(wǎng)站,購買化妝品、衣服等等(DT君OS:從這里可見,張童鞋是位老司機(jī))。
彩蛋:我們還可以定位最佳男友哦
這個話題,其實上面已經(jīng)提到一些些了。
好基友的定義有很多種。利用餐飲數(shù)據(jù),我們簡單的定義最佳好基友為幫基友或舍友帶飯的童鞋;而好男友簡單的定義,則為每次都會幫女友刷卡的童鞋們……他們之間共同的特征是會在連續(xù)打若干次飯,并且價錢相近。利用這條規(guī)則,我們在找到了20000多次刷卡記錄,剔除掉無效的數(shù)據(jù)(同一時間出現(xiàn)兩條數(shù)據(jù)的、聯(lián)系兩次但價格相差很大的),共有10000余條這樣的記錄,這說明至少有10000次這樣代為打飯的同學(xué)。前5名如下所示:
雖然不知道這幾位同學(xué)具體的名字,但是按你胃,你們現(xiàn)在成為國民好男友啦。
數(shù)據(jù)獲取與整理
本文是在一份比賽報告基礎(chǔ)上進(jìn)行改寫的。
本次研究是參加EMC杯智慧校園開放數(shù)據(jù)大賽的比賽報告,比賽舉辦方是交大網(wǎng)絡(luò)信息中心;比賽數(shù)據(jù)由上海交通大學(xué)網(wǎng)絡(luò)信息中心和OMNILab聯(lián)合提供。
研究報告涉及到的數(shù)據(jù),分為以下幾個部分:
-
用戶信息中包含了上海交通大學(xué)閔行校區(qū)使用過校園卡消費的學(xué)生信息。包擴(kuò)卡號(匿名化)、學(xué)號(匿名化)、性別、年齡、入學(xué)年、學(xué)生類型。共30861項觀測,包含30861個一卡通賬戶、30812個學(xué)號,即有49名學(xué)生擁有兩個一卡通賬戶。時間跨度為2014-09-01至2015-01-31。
交易記錄中包含了上海交通大學(xué)閔行校區(qū)的校園卡消費信息。每條交易記錄包括消費者卡號、商戶號、商戶所屬系統(tǒng)、交易時間、交易金額。共7915289項交易記錄,時間跨度為2014-09-01至2015-01-31。
商戶信息中包含了上海交通大學(xué)大學(xué)閔行校區(qū)各個商戶的信息。包括商戶所屬系統(tǒng)代碼、商戶所屬系統(tǒng)名稱、商戶代碼、商戶名稱、商戶地點(有缺失)、商戶成立時間。共134項觀測,包含32個商戶系統(tǒng)、85個子商戶。
校園網(wǎng)記錄中包含了共12736408項校園網(wǎng)記錄,時間跨度為2014-09-01至2015-01-31。
數(shù)據(jù)俠門派(附第二個彩蛋)
本文數(shù)據(jù)俠:張宏倫,上海交通大學(xué)OMNILab實驗室直博生,研究方向為數(shù)據(jù)分析和數(shù)據(jù)可視化。
好了,答應(yīng)你們的彩蛋來了:
文章的最后,萌主問張宏倫,既然交大女生這么好,你給我介紹個師妹來實習(xí)吧?。ㄟ@是真的!萌主約你一統(tǒng)江湖。)
他回復(fù):你覺得我有師妹嗎?
BTW,更慘痛的事實是,萌主私下多方打聽了解到,張大俠的女朋友……并不是交大的!
如何加入數(shù)據(jù)俠
“數(shù)據(jù)俠”欄目網(wǎng)羅全球最I(lǐng)N的大數(shù)據(jù)俠客,利用人工智能、機(jī)器學(xué)習(xí)以及各種前瞻算法,打造理性而酷炫的數(shù)據(jù)可視化盛宴。過去,我們用文字,視頻,圖片傳達(dá)信息?,F(xiàn)在,我們用大數(shù)據(jù)闡述事實及其背后邏輯趨勢。
DT時代超級英雄正在組隊!你也想要成為成為數(shù)據(jù)俠嗎?請將你腦洞大開的數(shù)據(jù)作品,發(fā)到數(shù)據(jù)俠聯(lián)盟萌主沈念祖的郵箱:shennianzu@dtcj.com。哦對了,請不要叫她沈先生,切記。
(了解更多有趣又有料的商業(yè)數(shù)據(jù)分析,歡迎關(guān)注DT財經(jīng)微信公眾號“DTcaijing”,下載“DT·一財”APP)