我參加的是 2015/9/5 這一場『
資料科學團隊培訓及導入經驗分享會』,以下是一些很簡單,隨手紀錄的筆記,比較片段,自行斟酌要不要看瞜... 講者說會後會分享 PPT,如果我有看到網址,我會補上 :)
有錯字請見諒 XD 打字很累的...
# 資料科學簡介 (0900:1030)
* 資料分析很像在掏金,你知道裡面應該有很有價值的金,但他稀少,一定要有對的工具把它找出來。
* 這是現在大家做大數據的困難:『有很多資料,但只拿出一點點東西』。
* 所以推廣資料科學,透過會議,研討會,讓大家知道我們有很多工具。
* 訓練資料科學家非常困難,講者覺得最重要的是溝通能力。這種人物很難找,你有聽過,但你很難遇過。
## 資料科學包含:
資料科學不是單一技術,是這些科學的集合。
* 數學統計
* 模式識別(雜亂的東西找出 pattern)
* Data Mining
* Machine Learning(讓電腦自動發展演算法)
* 人工智慧
* 類神經網路(幾十年前的學科,最近又開始紅了)
* 資料視覺化
* Big Data Modeling
* Big Data Solution Engineering
當你平常處理資料的方法已經不適合了,當你需要新的方法來處理新的資料,我們就需要新的技術。
* EDA
### HIPPO
HIPPO-driven -> Data-driven
老闆說什麼就做什麼(那這家公司是 HIPPO-driven) 而不是 Data-driven。
## Data Science
大數據可以是形容詞 動詞 名詞... Example: 你這資料有大數據了嗎 XD
### Big Data
* with height volume, velocity, or variety
* 政府喜歡用『巨量資料』
* 量是多大才叫做巨量? 每人定義不一點
* 有大師認為,傳統的統計是經過抽樣,有經過抽樣的都不叫大數據
* 資料一直進來
* 像是電商
* 反應速度很快
* 多樣性,當你的資料跟以前的不太一樣,開始整合產生新的價值。
* 我們不一定要一直去強調大數據這件事情
* big data 太容易被誤用了
### Unknown Problem
* 傳統的 BI (Business Intelligence) 你知道問題,也知道答案,但是精確值不曉得。
* Data Discovery 企業根本不知道這個問題(ex: 在哪個跨國公司有潛力?)
* 探索式的開發,結合其他的資料,找出企業的問題,或是開發新的客戶
### Data Collection and unification
* 因為科技的進度可以搜集到以前搜集不到的資料 (ex: 手機,手機上面有很多感應,透過手機的水平垂直,震動, 加速研究台北市公車哪一條路開的比較平穩)
* 台北市有三千支 camera, 車上的行車記錄器, 微軟的年齡偵測。如果資料夠大,知道你是誰,你的情緒。
* Deep Learning。
* Google Map 過去是有大概去推估門牌號碼,但是用 Deep Learning 可以做得很準,用影像辨識處理,這是前幾年還做不到的事情,但是現在做到。
### Data Product building
* 因為電腦處理的速度變快,所以我們很容易打造 data product。
* 他有很多種含義,現在比較常講的是 input 的資訊,output 會直接做判斷,不用經過人為。
* 推薦系統是典型的 realtime data product,案例像是電商,比如說 Amazon 做了 20 年了。
### Business Context (i.g.,goal => revenue)
(--沒記錄到什麼--)
## Data Science is More Than..
* 分析工具 (R, Python)
* Infrastructure(Hadoop, NoSQL)
* Big Data(small data also do) small data 也可以小兵立大功
* Data Visualization
* Statistics/Machine Learning
## 案例
1. 計算社會學
* 當電腦科學家遇上社會學
* 社會學很難?! 因為它牽涉到人,不能重複,看不到因跟果。
* 我們都需要資料來佐證,可是跟人有關的資料很難取得。
* 涉及隱私的資料都很難取得。
* 常用的方法: `analytics of web-scale observational data`, `virtual lab-style experiments`, `computational modeling`.
* virtual lab-style experiments: facebook 在 internet 上做實驗,像是投票,如果是針對某個黨派做操作,是有可能造成選舉結果的。
* Google/Facebook 可以操作決定讓你看到的內容ㄡ
* 『排行版』是有效的。排名在前面會增加下載量,或是購買量(有可能造成買榜行為)。排行榜會不會改變你對某個東西的印象?
---
# 資料科學家的養成
* 技術背景
## 資料科學家
* 統計, 機器學習, Domain specific data mining techniques, Data Visualization
## 資料工程師
* 資料錯了你好歹要看得出來呀
## 資料科學家的特質
* hacking..
* 溝通能力跟人際技巧比較重要
* 兩到三個專業知識
* 懂得企業如何操作, 如何賺錢
## 資料素養 + 創意人的訓練
* 你會再遇到問題的時候,不做假設 不偏見
* 有經驗知道這個問題該怎麼搜集資料,及分析
## 幾個建議
* 獨處跟熱情
## 在建立資料科學團隊,找不到熟手怎麼辦?
* 這種人不會在市場上流動
* 幾本上你在台灣找不到這種人
* 三項領域出發: 資訊, 數學統計, 解決問題能力
* 個人特質要具有: 細心富創意,溝通能力
## 最小團隊組成
* 講者認為理想最初始團隊: PM, 資料科學家, 資料工程師*2, ,資料視覺化工程師。
* 兩個不嫌少,先求有再求好
##『大』數據處理平台?
* 大部份的公司是在處理資料缺乏結構的問題,而不是資料過大的問題。
* 『大』不是重要的特質
* 30% 的大數據的問題在於『必須分析來自於多個來源的資料』
* 隨機抽樣是我們的好朋友
## 資料倉儲團隊 vs 資料科學團隊
* 倉儲團隊管理整個團隊的資料,但多數事情是事先被決定的。(問題會變,但資料差不多就是那樣)
* 資料科學: 資料倉儲團隊的『客戶』
* 企業領導階層指出方向之後,資料科學團隊深入資料之後,定義問題
## 釋放資料科學家
* 資料科學家不應該做報表撰寫 (解放他們吧..)
## 培養對資料好奇的文化
* 資料團隊要懂得 re-phrase 問題
* 資料團隊負責重新定義問題,以及找到答案
## 混出資料科學家
一定要有商業敏感性,你找個統計學家是沒有用的。數據部要跟業務部的人經常在一起,不只是一同開會,更要一起吃飯喝茶.
## 資料成為企業資產
企業資產而非部門資產。
制度一: 程式/資料透明化/共有
制度二: 所以資料由單一團隊組成
制度三: 資料團隊成戰略編組, 高層全力支援 (ex: 阿里巴巴~ 資料策略委員會)
國內狀況目前: 以上皆非。 XD (覺得爽)
## 資料團隊目標要明確
『你們測量過的東西,是無法管理的』- W.Edwards Deming
* 績效量化,通常不是無成本,需要額外的投資跟時間累積。
##結論
其實去年也參加過了,心得一樣,資料科學的技能要持續,不然就是 nothing
n! o! t! h! i! n! g!
(只是一年了,還是覺得自己很廢廢的 XD)