Google Analytic

2016年2月18日 星期四

資料科學面面觀Exploring the Potentials of Data Science

本文是網路名人TonyQ發起的討論文章,備份於此方便日後參考,原址在最下


資料科學面面觀
url : http://datasci.tw/event/data_team_jan_2016/

  • 09:00 ~ 10:30 資料科學簡介
投影片:http://www.iis.sinica.edu.tw/~swc/talk/data_science_overview.html

陳昇瑋自我介紹與介紹領域。研究範圍包括情緒量測量化等等。希望透過今天的分享讓大家知道 big data 是什麼,能怎麼應用。


資料科學的定義:早期所有追求知識、真理的方法就叫科學。後來十九世紀後定義窄化為追求科學性的方法、可反覆驗證的方法。

資料科學定義是所有科學性的方法,可以幫助我們從資料中取得知識就是資料科學。

「這動作非常像淘金」

淘金有多難?地表上把一個地方的土挖一千公的土,如果有五公斤的黃金,那就是有淘金的價值。


我什麼事情都用 excel 做,就像是徒手淘金。有好的工具就可以開拖拉機來快速幫忙。為什麼要學資料科學?因為需要工具。

但這種工具未必是軟體工具,很多是理論工具,數學、統計以及延伸理論跟技術。

包括像是 pattern 辨識,像是經典的啤酒尿布案例就是一種 pattern,什麼事情發生之後另一件事經常一起出現。 機器學習、AI 、類神經網路等。

Hidden layer較多的類神經網路有另一個名字,deep learning ,以前類神經網路沒有那麼紅,這幾年有些進展後改了名字就變非常紅,所以命名很重要。(笑)

資料視覺化、modeling 等等等。


有沒有發現我不太講 big data 是什麼?雖然政府單位很喜歡講,但 big data 只是資料科學中的一小塊,當我們要處理的資料有某種特性時,稱為 big data。處理 big data 時會代表你 tool 不見得夠用,會需要一些 big data 技術跟工程技巧,如 hadoop 等。

就算你資料是傳統資料或小資料,這些工具還在,資料科學都還在。很多資料科學是二三十年以前的技術。big data 只是其中一小塊

台灣需要使用 Big Data 的公司不到八成


運動頻道的資料科學應用(Computer Vision in sport):
* 棒球:球場內多達 16 組攝影機,全角度分析打者姿勢等資料
* 球員移動軌跡與距離計算

台灣職棒分析進度目前還在採買設備。高速公路測槍是目前最好的設備


阿里巴巴有拍照辨識路上人的衣服找相似的產品。交通方面美國跟大陸有個人化的車險。為什麼可以做個人化車險?在車上裝sensor 記錄煞車油門做動,瞭解你的駕駛習慣、判斷是否你是安全駕駛。

安全駕駛可以省保費,保險公司可以更精確計算風險,資料可以賣給車子的生產商。車商可藉此來改車子製程達到三贏。

以上所有應用基本上都是在國外發生,如 amazon 什麼時候有個人化推薦系統,約 1996 ~ 1997 ,看哪些書來計算接下來想買什麼。國內商務網站什麼時候有電子商務推薦系統,推薦系統很多地方都有,但你要看是哪一種推薦系統。

很多時候他寫推薦,不是個人化推薦,如全最熱門或推薦最熱門。譬如他們都看這些東西,這還不到二十年前個人化推薦的程度。比較遺憾的是技術都在,但國內未必發生,這是我要推廣的原因。

HIPPO driven 
highest paid person's opinion  ,換言之老闆說了算,
這演講的目的是,希望能由HIPPO driven轉到 data driven。


為什麼資料科學這麼紅:

 1. Big Data
  Big Data 三個 v  

  • 大的數量 Volume
  • 多大叫大?
  • 為什麼要有 big data 這個 term? 
  • 我們手邊過去二十年習慣處理的技術無法處理大量資料。量大有兩個解釋,一個是資料查詢時,如資料庫效能跟不上即時搜尋、必須要用更快的查詢工具時。資料量超過 10 TB 上下,傳統資料庫回應會開始無法滿足問題。


傳統分析如 excel 必須假設 資料已經在記憶體裡,很多演算法假設你必須要在記憶體裡,如果資料太大放不進記憶體,那就沒用等等。硬碟空間等等一樣。目前臨界點大概在幾 TB 上下。

很多人覺得我公司有 30TB 就很多資料一定要 big data,重點是要分析的資料,未必需要每次都把所有資料拉進來。要看你要做的事情需要多少資料來分析。

  • 快的速度 Velocity

(1) 資料產生的速度太快。如一秒鐘產生幾十萬的 request log 之類的。會用一些 NoSQL 、key-value based 的工具來處理,可支援比較高的寫入速度

(2) real time: 傳統收集資料處理時是過去一段區間的,像是昨天、前天、上個月,未必是即時的。現在講 velocity 會講到 streaming data ,串流資料。源源不絕進來,如高速公路車流一直進來。可能車上有個 app 需要立刻反應後判斷最佳路徑。另一是網路廣告、防毒軟體,必須即時處理。

這推薦資料就是使用 streaming 的方式處理,如果資料量大到一個程度是要用專門處理 streaming data 的工具。

  • 面向 Variety
第三個 v : variety 

兩種定義: 
(1)資料(領域)多樣性:
  • 我們過去處理資料比較不會對完全不同資料去做分析。做麵包店就看麵包店相關的報表。今天你把溫度資料放進來、氣象、交通資料放進來。
  • 性資料結合 例如: 日本從 twitter 推文,建立地震預警系統、或三個月推文判斷是否有憂鬱症。

(2)資料格式多樣性:(non-structured data 非結構性資料)
  • 如每個商店都有監視器,以往他是屬於出事才會看的東西。
  • 可能他本來只處理銷售等等這些「數字」、「數值」
  • 非結構性資料最常見的就是 text/影像/影片等等。
  • 通常不會去處理非結構性資料,但非結構性資料是可以處理的。

eq. 觀察麵包可以分成多個面向:銷售量、外觀、保存期限、成本等 ...(一個麵包可以被拆解成30個維度來觀察跟紀錄,又或者是消費者可能從30個因素[自覺或不自覺]決定是否購買某一麵包)



為什麼 big data 變得很紅?

  1. 容易收集跟處理資料(更便宜了)(硬體降價)
  •  他沒有強調硬體吧   軟體技術處理大數據的架構也改善很多 開源專案也變多很多
  • 記憶體
  • 那些分散式架構,如Hadoop,Spark...都算硬體吧
  1. 容易有大量上網使用者
  1. 開放資料
  1. 新的類型、而且到處都有的 sensor (e.g. 手機加速度器、錄音)。Nokia 開放使用行為資料,使用判斷震動的 G sensor 就可以判斷男女。Google 導航從手機震動資料,來判斷道路品質。
  • 看起來是陀螺儀應用
  • 因為男生多放口袋,女生多放包包,所以可以透過震動判斷。有 95% 正確率。
  1. camera 太多了,但很少人在用。如可以用錄影機來偵測排隊情況等。另外人臉識別也有很多進展,只要拍到正面就可以瞭解出性別年紀跟表情等。用瞳孔辨識人。作為判斷哪個攤位適合放哪種商品。
  1. 生理特徵 ex: 心跳、呼吸的震動: 人心跳人會變紅,我們人眼看不到、但相機拍的到,可以透過 camera 來辨識跟強調。上次我們請到 ooo 博士,然後他就把立院的 IVOD 影片,來分析他的臉色心跳 BPM 。

2.Streaming

只要連網,一定會有資料源源不絕地傳入
  • 網路廣告
  • 異常偵測系統 ex: 防毒軟體、垃圾郵件
  • Sensors 隨時偵測生理狀況
  • 電子交易紀錄

推薦系統
Target - 相當於家樂福,大型連鎖超市。已經做個人化 DM 好幾年。
Target 針對孕婦的應用:
  • 個人化 DM:預測孕婦,如果是孕婦,就寄孕婦特刊。因為有一些東西是孕婦必買,所以很容易預測。可以預測到有多少的機率是孕婦、何時生產。
  • 發現孕婦會在懷孕第三期時買無香精沐浴乳,鋅鎂鈣片。如果發現買了特大包棉球、大量的乾 洗手與浴 巾的時候推測可能要生了
商家知道你購買的產品後,會不會公佈給其他人(如你爸媽)(資料隱私)
台灣仍作敘述統計,而用 machine learning, regression 就可以做預測

3.Data Discovery
舊酒裝新瓶? (Business Intelligence->Data Discovery; Data Analyst->Data Scientist)
  • 傳統 BI:老闆根據報表決策: 20年前的商業智慧(BI) 回答企業本來就知道的問題、本來大概知道的答案。敘述統計方式呈現數字或圖表形式的報表。但是其實智慧在會解讀報表的人。 
  • 已經知道「問題在哪裡」,用資料分析找答案
  • 資料科學家:尋找假設,由資料說話、驗證假設: 企業決策者從報表中尋找精確數字,資料分析師則協助從資料中挖掘,生出有價值的東西
  • 有很好的「列出假設」的能力 (列出假設及驗證假設的能力)
  • 先用資料回答「問題在哪裡」,再去找答案
  • 資料科學家需要有:經驗、直覺、創意、domain knowledge



Big Data 包含於 Data Science 
資料只會越來越大,當技術普通化後很可能未來不會再用 Big Data 一詞
資料學家一輩子只會分析一種資料

Data Science 包含多領域
  • Statistical packages 統計套裝軟體(eg, R, Python)
  • 為什麼沒有 Matlab / Octave ?!
  • Matlab/Octave 是訊號分析強項
  • 我覺得因為matlab貴,他也可以做得到分析,只是能做到哪種程度?
  • 另外,Matlab做模擬建模比較強。
  • Data infrastructure(eg. Hadoop, NoSQL) 
  • Big Data
  • 資料量小 (< 50 TB) 不一定要用 Hadoop
  • 符合3V任何一項都可以用BIG DATA,容量只是其中一個考量。
  • Data visualization
  • 上面講很多了
  • Machine Learning

資料分析重點是 Hidden Information,看不出來的資料!把資料背後的 hidden information 顯示出來給你看,叫「資料分析」,沒有顯示 hidden information 則叫做「資料視覺化」

Modern Data Scientist:資料科學家必懂(四大領域不一定要全懂)(技能 樹)
  • Math / Statistics
  • Programming / Database
  • Domain Knowledge / Soft Skills
  • Communication / Visualization
  • 要資料 / 呈現資料 / 問工程師套件

(回顧 2014 2015 年會)

  • 這邊太基礎了,放空中.....交給你們了。QQ

計算社會學 (Computational Social Science): 人 - 人互動,做出模型與預測 
從對話、回信中建出社會關係圖 
三大常見研究方法: 
  • Macroscope 大尺度觀測
  • 例如想要觀察人從小到大,用的語言有什麼變化 ex: facebook 7 億的字,分群判斷出 (1) 性別 ex: 依常用詞彙分群 : shopping / fxxk。 (2) 年齡 、(3) 興趣 、 (4) 個性、(5) I, We 詞彙使用頻率變化
  • 投影片 p. 73 - p. 81
  • Virtual Lab 將網路當作實驗空間 
  • Facebook 操作情緒實驗]
  • 隱藏正面或負面情緒的文章,發現人發文很容易受所看到文章的影響!
  • 爭議: facebook 使用者條款,在事後才加上研究的用途
  • 投影片 p.81 - p.92
  • Facebook 操弄人出門投票
  • 提醒他的朋友有多少人會去投票,按 I voted」按鈕的頻率會變大
  • 選舉資訊轟炸,會使選民改變心意
  • Empirical Modeling 由經驗建立模型預測
  • 社群媒體怎麼幫我們瞭解人類怎麼想跟感覺。
  • AHD Mortality => 預測冠狀動脈心臟病在地區內的死亡率(從 Twitter 正向發言或敵意、感覺無聊的發言類型,利用網路輿情分析來建立預測模型比從一般傳統如膚色、居住地等建立的預測模型,有更高預測心臟病的準確度)
  • 分析 Facebook Like 了解一個人的性格
  • 柯P 競選時透過按讚資料,shapping 主張
  • 用不同族群愛(按讚)粉絲頁作區別分析,例:分析出男生喜愛而女生不喜愛的粉絲頁及女生喜愛而男生不喜愛的粉絲頁,可預測使用者性別;同理可作區別分析的,如智商、性向、交友多寡、政治傾向、支持宗教等。
  • 從社群資料,也許有機會觀察: (1)積極、保守型投資者、(2)有沒有錢
  • 投影片 p.104 - p.116

Q&A
  1. 問陳老師如何取得資料?面對隱私等限制的看法?
  • 老師只做分析研究,個資法方面希望能放寬



  • 10:50 ~ 12:20 資料分析實戰案例分享

資料科學如何讓我們幫助捐款人?(p.117 -)
分析蘋果日報暖流版報導及蘋果日報慈善基金會網站公開資料跟捐款數字結果的相關性。

  1. 對捐款人所捐金額建立分布圖
  1. 從哪個關鍵字影響捐款數目? ( 拆解資料/每個字 )
  1. 標記文章中的關鍵字 -> 文章標記關鍵字
  1. 小型捐款平台收集金額
  1. 照片分析、報導者及其他報導外因素(如報導日期)也能建立feature
  1. 結果: p.144 開始
  • 捐款意願(1)與刊登時間點高度相關 ex: 八月繳學費,影響捐款意願 (2)受訪者的胖瘦會影響捐款決策
  • 誰收到較多捐款:老弱婦孺與單身者
  • 捐款人對各式疾病及身心障礙有差別待遇
  • 不可抗力因素較讓人同情
  • 捐款與固定支出成反比
  • 捐款者期待能看到希望

資料分析計畫中會花多少時間準備資料? 60 - 70 % 的時間蒐集資料及將非結構性資料轉換為結構性資料,但資料就緒後分析速度會很快!
  • 準備資料大概就要半年

未來展望(p. 170 -)
初衷: 讓原本不捐款的人可以捐款
結合 Facebook 分析捐款資訊 捐款文章個人化推薦
認知偏差 (cognitive biases) XD
推坑技巧解密...XD

Q&A
Q: 阿里巴巴 30 位博士作分析 (multimedia retrieval),需要統計、machine learning 領域的博士在團隊成員才能作分析,非本科要如何發揮。收集資料會與提供資料者有拉扯,例如資料有保留,建議如何處理這種狀況,才能有最好的分析結果?
A: 
  • 資料科學本來就沒有本科生,因為領域太大。上一週來分享的彭啟明非資料領域,而是大氣科學的領域專家。
  • 至於要不要 phd 則要看做到什麼層次,如果是技術創新、新領域例如阿里巴巴 multimedia retrieval ,所以才需要 phd。如果是應用創新,則不需要 phd。
  • 資料提供者,是一般而言還是企業範疇?至於企業範疇則下午會講心得與組織上的建議。

Q: 要做使用者研究,中小企業,除非像臉書或阿里巴巴有大樣樣本,網路上 attribute 如果沒有比較大代表性,新創公司要對使用者有更多認識,要如何取樣?
A: 沒有比較好方法,下午會講到 crowd sourcing 取到的人是方便的 sample,可能沒辦法 target 到某些族群,例如高階經理人。擁有平台的人,才擁有 sample。阿里巴巴約可以取到八成的人。新創公司通常需要有服務,有資料才能去改善服務。

Q: Google 提供路平資料,而不是政府提供。因為政府沒有機密性資料。想請陳老師對分析政府資料,能提供建言。
A: 政府不是做不到,而是橫向連結太難、資料太破碎。例如 1968、悠遊卡等 APP 發包給不同廠商做,儲存的後端資料大家覺得沒有價值,沒有橫向連結去處理。
另一與會者: 政府 APP 應該包含同一個 package ,可以把所有資料收集起來處理。

Q: 老師收集資料花了半年,怎樣縮短,而不會影響產品發展時程?
A: 通常不會在 critical path,所以不會影響產品。通常新創公司會問第一個 business model 資料處理可以幹嘛?第一個產品上線之前,因為沒有資料,資料科學不能處理或分析。要在第二個產品,才有資料能分析。

Q: 如果已經有粉絲專頁,想請問透過什麼工具,可以知道粉絲喜歡的內容?
A: facebook 不讓其他人知道 like 其他粉絲專頁。如果可以知道按讚資料,就可以知道潛在喜好。研究是透過 APP 讓使用者授權,才能知道按讚內容。

Q: 老師拋磚引玉,希望資料科學可以落地根生,有實例。大家工作很忙,做出 insight 很難。想請問老師,未來有沒有平台,可以嘗試實作、一同分享,進而落地根生。
A: 今年活動會考慮安排這樣型態的議程,台灣有 R user group 每週都在分享資料主題。但是台灣有個習性,失敗會分享、成功會「暗槓」(台語掩蓋的意思)。

Q: 台灣學校已有巨量資料學程,學生要如何選擇自我訓練?
A: 因為剛開始招生,還不知道內容如何。學生要找到有熱情的點,用 problem driven 來鞭策自己。例如當公司 intern,透過解決問題,累積實戰經驗練功。認為是最有效的訓練方法。或者是出國,跟資料科學專家學習。

Q: 報名費用
A: 怕人太多,之前在學校上課,發現目前有很多學生還不知道要做什麼,都在玩手機。這算做學習的初期投資。

Q: 公共衛生出來的人,收集資料很辛苦,例如問卷調查花更多時間。在這塊如何改善收集資料,與改善確度? 很多問題,無法透過網路作,不知道能否透過 sensor 收集資料?
A: 鄉鎮 samping 拔山涉水花超過一年時間,方法可能有,但是否能被取代?最近嘗試用台電資料看每個鄉里用電量跟溫度關係,來看買冷氣的多不多,效果跟花了五六萬的傳統作法差不多。目前仍在嘗試新作法。另一例是如何知道國小營養午餐的營養,請國小老師用 APP 招照上傳,比對營養午餐的營養,但這需要自己建立平台,因為 Google 、 Facebook 不會做。


當線上遊戲遇上資料科學 (p.181 -)
  • 時間不多跳至 p.231
登入登出時間持續性 => 福克斯大神傳說
  • 使用 /who 指令來收集各玩家資料
  • 取到的資料儘管只是上下線資料,而非性別、角色,取到對的 feature 也可以分析
  • 問卷還是得做, 知道大家怎麼想

線上遊戲投入多、競爭激烈,如何預測遊戲的趨勢?
  • 量化遊戲的黏著度
  •  => 訂 index (量化指標)很難,用第一次遊戲至最後一次遊戲時間天數 (忽略中間過程)?持續時間?登入頻率?密度 (ratio of presence)?用 p.272 的方法,前幾天玩幾天
  • 情緒變化 p.277
  • 皺眉肌與笑肌的收縮程度與遊戲黏著度的相關性

來電預測 (p.296 -)
  • whoscall: 除了來自 google result 與 使用者回報外,有什麼方法判別未知來電?(p. 308 -)
  • 用戶接電話後,紀錄來電的時間間隔與通話時間長度,若惡意電話可得到用戶封鎖紀錄

電話打給 whoscall user (當作 sensor) 時包含多少資訊?
  • 電話號碼
  • 幾點打電話
  • 號碼有無在 user 聯絡簿內
  • 有沒有接
  • 有接,講多久
  • 間隔多少

  • 探索式資料分析:探索資料不同變數間的潛在關係
  • 探索式的資料分析(Eexploratory data analysis)強調的是分析人員和分析系統緊密結合,在分析過程中,找出有用的高層次資訊。也就是探索式資料分析的本質,可視為交談式的沙盤推演。一個新的發現,形成一個新的假設,導致進一步的探索。以此模式反覆探索,藉以瞭解資料,更進一步挖掘隱藏在大量資料中的知識。為了讓非電腦專業的資料分析人員或高階主管,容易地進行探索式資料分析,系統必須具有高度的操作親和性及結果顯示親和性,而且能動態地設定及調整各項資料分析參數。

  • 結果:

  • 進一步的問題:
  • 該問題電話被偵測到第幾通的時候,將它納入偵測名單中?(甄別效率)
  • 用中位數而不用平均數?
  • 中位數不被極端值影響。

  • 挑戰:詐騙集團學會 ML 的的話 ...


R 語言簡介(p.345 - )

4 月將會辦 2 日 12 hr 的 R 翻轉教室

Q & A:
  1. R 與 Python 的差異
  • 能力一樣,社群不一樣(R 學術界  Python 業界)入門難易度: R  > Python
  1. R vs Matlab / Octave (HP : https://www.gnu.org/software/octave/)
  • 前者重於統計,後者重於模擬
  1. 因標案需要定好資料提供的規格,overhead、結構須先訂好,為資料科學家的任務
  1. 若無產業Domain Knowledge 如何定 index
  • Domain expert 很需要,經驗不容易速成
  • (資料科學家養成不易,要學很多學科, 所以希望能提高生產力,能不用花太多時間在業主的Domain know-how上面,而且有些know-how不見得業主會透露給我們知道)

  • 13:20 ~ 14:40 資料科學家的養成之路
  •  延後 10 分鐘開始

投影片 p.423
業界實例其一: 線上遊戲經銷商虛擬寶物
挑戰:  如何分析玩家如何進行虛擬寶物交易的數據資料? 如何取得正確的Feature? (p. 433)
優先將資料處理成結構性資料
  • 描述衣服的特徵何為好? 用以判斷下一件衣服要如何設計,才好賣?->Feature Engineering
  • 找專家
  • Netflix 2014年找 30 個 Tagger,看完影片後幫影片標上各種tag,如動作片、劇情黑暗等,未來用在推薦系統上判斷, Tag 來自經驗法則 ==> 以內容為基礎的推薦。
  • 羣眾外包Crowdsourcing (p.439) 
  • Amazon Feature Tagging
  • 大陸網站網站行銷
  • 看圖選特徵(p.451)網友選擇 + 演算法
  • 經驗法則
  • reCATCHA 做書籍文字的人工 OCR
  • 土耳其機器人法?
  • Amazon Mechanical Turk? Abbr. Mturk
  • 科技三箭: open data, big data, crowdsourcing

算出風格標籤與 Sales Index (SI) 的相關係數
模型建立後,另加入影像辨識後搭配風格標籤可進行預測銷量(將非結構性資料抽象成結構性資料)

女角衣服的風格標籤:將非結構性資料變成30個結構性特徵值
俏皮、暗紅、撩人、溫婉、魔女、和風、裸露、辣妹
可愛、火焰、管家、華麗、東洋、誘惑、媚惑、學生
蓬裙、火辣、性感、淘氣、萌萌、制服、彩衣、豔麗
冷豔、惡魔、女傭、夢幻、狂野、神聖、女僕、飄逸
野性、青春、古典、甜美、日式、迷你裙
  • 線上投影片正好沒有這幾頁

Q&A
Q: outsourcing 分兩組原因
A: 第一組加標籤、不同人第二組評估與確認第一組結果,去蕪存菁。

Q: 第1,2群會不會不是線上遊戲的 TA 
A: cwordsourcing 不需要是線上遊戲玩家,因為是看風格下 tag

業界實例其二: 網路釣魚Phishing
頁面特徵 (p.379)
URL 分析 (p.408)
  • 圖結果: p.420

Q&A -- 1
  1.  分類後會不會做第二層進一步分析?
  1. 分析時做到第幾層會使用 weighting (權重比作計算)
  • 優先分成 subsampling or supersampling,不得已才使用權重
  1. 是否曾有失敗案例?
  • 有,是成功案例的十倍!
  • 新特徵加入後效果變差?尚未遇到完全否定先前成果的例子
  1. Crowdsourcing 怎麼挑選對象?
  • 就定義上來說, crowdsourcing 是指外包給不特定對象.
  • 定價是大問題,交給發包者
  • 有研究顯示 Crowdsourcing 的品質和價錢關連性不大
  1. 商業研究如何處理利益衝突?Pattern 中是否可申請專利?
  1. 學術 - 業界 比較沒有利益衝突,同一個領域不會去作兩家公司
  1. 做出 Pattern 後可申請,但多以發表論文為主
  1. 從服裝特徵中學出的指引是否影響服飾往後的設計趨勢?
  1. 不是「一定要這樣」,而是「要如何搭配」

業界實例其三:  如何組成資料分析團隊?(p469)
資料分析團隊的成員:Data Project Manager/Data Scientist/Data Analyst/Data Engineer
挑戰:  團體裏鮮有專職資料分析,多數都是由工程師RD(或專案經理PM)兼任
前端也需要工程師(eg: 使用 d3.js, ELK --- Elasticsearch, Logstash, Kibana等JS工具進行資料解析),也要了解資料庫與資料本質(尤其是統計學!!)
資料素養:瞭解資料的(潛在)價值。
資料分析師不只要提出很多問題,還要找對問題(domain knowledge) => p.457

相關 != 因果 -> p.482
 金錢對選舉、父母教養對子女成績->p486
  •  蘋果橘子經濟學 中的案例

業界實例其四:   說的跟實際做的不一樣 --資料輔助誘因設計(p.494
  • 加州省電實驗-問卷調查結果與填答者後來實際行動不同,從眾效果更勝金錢與信念誘因。
p.496
  • 錯誤示範:眼鏡蛇效應-為杜絕蛇害,提供獎金給捕蛇者,結果事得其反,當地眼鏡蛇不減反增。因為養眼鏡蛇成本比賞金p499


創意人的訓練 -- 不是只有分析 (p.505)
1.要有創意,必須大量閱讀
我們的創意就像魔島(航海突然發現新島),但要大量的知識作為背景 p.509
  • 魔島理論: 創意就像是大量累積的結果, 一個創意的突然出現往往底層都有大量的知識.

2.創意的自我訓練法 p.514
  • 巴黎司機訓練法:強迫自己觀察(比如要求自己能辨識每位計程車司機的不同,儘管對於觀光客而言,外國司機都長一個樣。)
  • 杜拉克問句:簡化問句找出真問題
  • What-if訓練法
  • 反分析訓練法
  • 重新定義訓練法
3.創意產出的三個階段:預備期->潛伏期->發光期
腦袋需要時間將大量閱讀的結果來咀嚼、分類,但可以像肌肉一般訓練

4.如何產生好構想  p.526
(1)量中取質-如採珠者採蚌
(2)自由運轉
  • 拔除理智的過濾
  • 一般人都可以 10 min 內想到 20 個點子!
  • 想到的點子,很多都會失敗,但很正常不用太 care
  • 一定要記下點子!!(點子筆記本)
5.創意的絆腳石
  • 血統主義
  • 逆變心理
  • 直線主義
6.個人建議p542
  • 大量閱讀: 余秋雨<青年人的閱讀>
  • 不放過所有的發想
  • 杜拉克問句的練習
  • 獨處與熱情
推薦閱讀 p.547

Q&A -- 2
  1.  資料科學處理範圍僅限定於人為議題?
  • 我們仍然需要很多 Domain Knowledge
  1. 如何選擇資料並尋找資料的關聯性?
  •  需要進一步修正
  • 平時分析的資料有所謂的歸因,學術不可隨便用,但商業只要促銷就好
  1. 如何觸發新知識與新點子新技能連接?
  1. 尋找並實作可以發揮新知識的工作


  • 15:00 ~ 16:00 企業文化以及資料科學團隊的建立
資料科學團隊的建立:   找不到合適特質人選
1.人選:細心為首要必備其次溝通能力最後富創意
2.團隊:最小團隊組成PM/Data Scientist/Data Engineer/Visual Designer 
     先有鷄還是先有蛋?先解析來源資料是否真正助益才再考慮資料科學解析平臺

 機器學習競賽:https://www.kaggle.com/
3.工作平台:最小工作平台
  • 不一定要大,時間性的會隨時間而變,抽樣即可
  • 除非是用 deep learning 需要10億筆資料,否則通常用一台 work station 就可處理
4.如何分工合作:p567
  • 資料科學團隊=/=資料倉儲團隊
  • 資料團隊與領域專家
  • 領域專家負責發問(或指出方向),沒有的話很容易過於偏向技術導向
  • 資料必須優先 ,收集,保存,提供也是系統規格的一部分 
  • 資料團隊=/=報表產生器
  別緣木求魚讓資料科學團隊變成只是生產報表功用
企業組織及文化
美國銀行(BoA , Bank of America)客戶服務中心接聽電話效率實驗
1.資料必須是一等公民
2.讓資料成為企業資產
3.資料科學團隊KPI
4.典範轉移Paradigm Shift (資料分析思維的轉換)

Q.R與Python比較
A.R支援套件較多, Python強在即時串流處理, 也有人資料前處理用Python, 後端再用R



  • 16:00 ~ 17:00 互動論壇

彭啟明
  • 天氣本來就是開放資料
  • 資料的不確定性,變動很高
  • 個人經驗 vs 資料分析結果

  • 台灣目前開放資料文化尚未建立
  • 公家跳下去與民爭利
  • 例:台電對廢核後的缺電風險評估

  • 如何將氣象資料與其他的資料整合
  • 例:PM2.5 與疾病
  • 氣象資料 健保資料庫

  • 建立文化
  • 導入新的技術、外部顧問
  • 與客戶對話,邊做邊學

  •  資料平台的搭建及管理
  • -由原先的自建伺服器到Google, Amazon
  • -原先氣象資料的收集、模式運算、整合等,完全是一個新的大工程
  • -資料科學分析與軟硬體工程師間的合作協調,仍有進步空間

企業文化與資料團隊的建立 -- 邱銘彰
  • 對駭客防不勝防
  • 軟體的漏洞是軟體的本質,駭客總是有辦法駭入
  • Availability 永遠大於 Security,為了功能正常運作,總會犧牲安全性

擁有合法數位簽章的惡意程式
以合法的防毒軟體exe執行檔,配合不合法的dll檔,黑+白的攻擊方式

Data Intelligence


座談 Q&A:
  1. 管理所在的 Focus 何處?
  1. 彭:談專案需要 PM,整合用。 Sales 是為了談更好的價格。Data Scientist 做最後的總統整,各執所司。
  1. 失敗率很高,如何跟老闆談 KPI 的定義?
  1. 彭:成功率 10% 就很好了!PM 要察覺該 Project 的成敗。要用創業的心態來面對,負責的專案團隊要有共識與主管溝通。
  1. 陳:一次 Run 多個專案,分成功率高、探索式的案子,投放不同的資源。
  1. PM2.5 的測站分佈不均(台北 > 雲林),如何判斷PM2.5 的狀況
  1. 彭:無法完全要求全國統一的密度(因預算問題),尋找代表性的 Sensor,或是說用 Data 技術 smooth,但要想辦法解釋。
  1. 陳:LASS (Location Aware Sensor System),用開源的力量整合。目標是全國 ...
  1. 健保資料庫,住所不見得等於看病處
  1. 彭:確實無法區隔居住地與住所是否一致,只能從區域與期間來看,不能從單點來看。
  1. 陳為什麼想要分析麵包?
  1. 陳:想應用到生活面,台灣麵包店很多但麵包不太健康,總之麵包與生活息息相關
  1. 要找哪些領域的 Domain Export  ,以麵包店來例,要找內場還是外場?
  1. 陳:行銷,比較在意麵包的設計,但群眾外包更好,消費者比較知道想要什麼。
  1. 電子資料保護,有沒有建議的方式保護?
  1. 邱:最小公開原則,避免直接儲存密碼,使用 Hash 等方法加密,也盡量避免放在網頁註解處。
  • 用別的服務來測試,雖不一定安全,為的是拉高攻擊者的成本。需要做安全性的量測。
  1. 防毒軟體會容易感染,要如何挑選。
  1. 邱:掃毒軟體挑免費就好 XD,偵測可疑的檔案,不要上傳全部的檔案。eq: virustotal (https://www.virustotal.com/zh-tw/)
  1. 台灣對資料科學家的需求有多大?如何培養(灌輸資料科學的觀念)?
  1. 彭:資料科學家價值很難被衡量,需求一向在,看社會需求與商業模式是否導入?各國有在評估資料開放所能創造的效益,台灣目前是最蓬勃的,目標是思考如何應用亞洲其他地區的資料。eq. 泰國:英文比我們強,新加坡:目標是經濟。應該向外看。
  1. 陳:台灣需求應來創造,市場規模不大,但也不小(eq. Google Play, Taiwan Contribution #5)。資料科學家,需以科學家方式培養。辦活動引進門,修行還是在個人,須面對挫折。不推證照,因為知識無法量化。
  1. 店面的動線分析,是否能應用到中央廚房?(作業管理與工作研究等)
  1. 陳:可,但不需要太多攝影機,也不一定要資料分析。
  1. 學校中如何培育優秀的科學家?
  1. 彭:強化與企業合作,產學目前有很大的鴻溝。
  1. 彭:大氣系學生 碩士班去念資料科學
  1. 邱:曾有碩士生來工讀,企業應補助讓他來看外面的世界
  1. 陳:目前是老師自己出題,希望能讓學生依生活來定義題目。正分析台北市政府電梯的效益,是否影響市民服務等,從生活培養興趣。
  1. R語言翻轉教育(?)如何彌補師資不足?
  1. 陳:??? 發起的活動多參加(?),讓學生自己看課程自己練習,教材寫得好助教的負擔也不大。

若活動有什麼問題與需求,歡迎聯絡陳博士!
  • 以上彙整若有不足之處,歡迎補充!
  • Mark ++ 

簽到
  • 所有 LASS(開源公益的環境感測網路) 的感測值資料都是開放的,資料請參考


原址:https://hackpad.com/F5mpOfHzepS

沒有留言:

張貼留言

Related Posts Plugin for WordPress, Blogger...