2015 台灣資料科學愛好者年會 - 系列活動 『 資料科學團隊培訓及導入經驗分享會』 活動筆記


我參加的是 2015/9/5 這一場『資料科學團隊培訓及導入經驗分享會』,以下是一些很簡單,隨手紀錄的筆記,比較片段,自行斟酌要不要看瞜... 講者說會後會分享 PPT,如果我有看到網址,我會補上 :)

有錯字請見諒 XD 打字很累的...

# 資料科學簡介 (0900:1030)
* 資料分析很像在掏金,你知道裡面應該有很有價值的金,但他稀少,一定要有對的工具把它找出來。
* 這是現在大家做大數據的困難:『有很多資料,但只拿出一點點東西』。
* 所以推廣資料科學,透過會議,研討會,讓大家知道我們有很多工具。
* 訓練資料科學家非常困難,講者覺得最重要的是溝通能力。這種人物很難找,你有聽過,但你很難遇過。

## 資料科學包含:


資料科學不是單一技術,是這些科學的集合。
  * 數學統計
  * 模式識別(雜亂的東西找出 pattern)
  * Data Mining
  * Machine Learning(讓電腦自動發展演算法)
  * 人工智慧
  * 類神經網路(幾十年前的學科,最近又開始紅了)
  * 資料視覺化
  * Big Data Modeling
  * Big Data Solution Engineering
    當你平常處理資料的方法已經不適合了,當你需要新的方法來處理新的資料,我們就需要新的技術。
  * EDA

### HIPPO
HIPPO-driven -> Data-driven
老闆說什麼就做什麼(那這家公司是 HIPPO-driven) 而不是 Data-driven。

## Data Science
大數據可以是形容詞 動詞 名詞... Example: 你這資料有大數據了嗎 XD

### Big Data
  * with height volume, velocity, or variety
  * 政府喜歡用『巨量資料』
  * 量是多大才叫做巨量? 每人定義不一點
  * 有大師認為,傳統的統計是經過抽樣,有經過抽樣的都不叫大數據
  * 資料一直進來
    * 像是電商
  * 反應速度很快
  * 多樣性,當你的資料跟以前的不太一樣,開始整合產生新的價值。
  * 我們不一定要一直去強調大數據這件事情
  * big data 太容易被誤用了

### Unknown Problem 
  * 傳統的 BI (Business Intelligence) 你知道問題,也知道答案,但是精確值不曉得。
  * Data Discovery 企業根本不知道這個問題(ex: 在哪個跨國公司有潛力?)
  * 探索式的開發,結合其他的資料,找出企業的問題,或是開發新的客戶

### Data Collection and unification
  * 因為科技的進度可以搜集到以前搜集不到的資料 (ex: 手機,手機上面有很多感應,透過手機的水平垂直,震動, 加速研究台北市公車哪一條路開的比較平穩)
  * 台北市有三千支 camera, 車上的行車記錄器, 微軟的年齡偵測。如果資料夠大,知道你是誰,你的情緒。
  * Deep Learning。
  * Google Map 過去是有大概去推估門牌號碼,但是用 Deep Learning 可以做得很準,用影像辨識處理,這是前幾年還做不到的事情,但是現在做到。

### Data Product building
  * 因為電腦處理的速度變快,所以我們很容易打造 data product。
  * 他有很多種含義,現在比較常講的是 input 的資訊,output 會直接做判斷,不用經過人為。
  * 推薦系統是典型的 realtime data product,案例像是電商,比如說 Amazon 做了 20 年了。

### Business Context (i.g.,goal => revenue)
  (--沒記錄到什麼--)


## Data Science is More Than..
* 分析工具 (R, Python)
* Infrastructure(Hadoop, NoSQL)
* Big Data(small data also do) small data 也可以小兵立大功
* Data Visualization
* Statistics/Machine Learning


## 案例
1. 計算社會學
  * 當電腦科學家遇上社會學
  * 社會學很難?! 因為它牽涉到人,不能重複,看不到因跟果。
  * 我們都需要資料來佐證,可是跟人有關的資料很難取得。
  * 涉及隱私的資料都很難取得。
  * 常用的方法: `analytics of web-scale observational data`, `virtual lab-style experiments`, `computational modeling`.
    * virtual lab-style experiments: facebook  在 internet 上做實驗,像是投票,如果是針對某個黨派做操作,是有可能造成選舉結果的。
    * Google/Facebook 可以操作決定讓你看到的內容ㄡ
    * 『排行版』是有效的。排名在前面會增加下載量,或是購買量(有可能造成買榜行為)。排行榜會不會改變你對某個東西的印象?
 
---


# 資料科學家的養成
* 技術背景

## 資料科學家
  * 統計, 機器學習, Domain specific data mining techniques, Data Visualization

## 資料工程師
* 資料錯了你好歹要看得出來呀

## 資料科學家的特質
* hacking..
* 溝通能力跟人際技巧比較重要
* 兩到三個專業知識
* 懂得企業如何操作, 如何賺錢

## 資料素養 + 創意人的訓練
* 你會再遇到問題的時候,不做假設 不偏見
* 有經驗知道這個問題該怎麼搜集資料,及分析

## 幾個建議
* 獨處跟熱情

## 在建立資料科學團隊,找不到熟手怎麼辦?
* 這種人不會在市場上流動
* 幾本上你在台灣找不到這種人
* 三項領域出發: 資訊, 數學統計, 解決問題能力
* 個人特質要具有: 細心富創意,溝通能力

## 最小團隊組成
* 講者認為理想最初始團隊: PM, 資料科學家, 資料工程師*2, ,資料視覺化工程師。
* 兩個不嫌少,先求有再求好

##『大』數據處理平台?
* 大部份的公司是在處理資料缺乏結構的問題,而不是資料過大的問題。
* 『大』不是重要的特質
* 30% 的大數據的問題在於『必須分析來自於多個來源的資料』
* 隨機抽樣是我們的好朋友

## 資料倉儲團隊 vs 資料科學團隊
* 倉儲團隊管理整個團隊的資料,但多數事情是事先被決定的。(問題會變,但資料差不多就是那樣)
* 資料科學: 資料倉儲團隊的『客戶』
*  企業領導階層指出方向之後,資料科學團隊深入資料之後,定義問題

## 釋放資料科學家
* 資料科學家不應該做報表撰寫 (解放他們吧..)

## 培養對資料好奇的文化
* 資料團隊要懂得 re-phrase 問題
* 資料團隊負責重新定義問題,以及找到答案

## 混出資料科學家
一定要有商業敏感性,你找個統計學家是沒有用的。數據部要跟業務部的人經常在一起,不只是一同開會,更要一起吃飯喝茶.

## 資料成為企業資產
企業資產而非部門資產。
制度一: 程式/資料透明化/共有
制度二: 所以資料由單一團隊組成
制度三: 資料團隊成戰略編組, 高層全力支援 (ex: 阿里巴巴~ 資料策略委員會)

國內狀況目前: 以上皆非。 XD (覺得爽)

## 資料團隊目標要明確
『你們測量過的東西,是無法管理的』- W.Edwards Deming
* 績效量化,通常不是無成本,需要額外的投資跟時間累積。


##結論

其實去年也參加過了,心得一樣,資料科學的技能要持續,不然就是 nothing  n! o! t! h! i! n! g!

(只是一年了,還是覺得自己很廢廢的 XD)

留言

這個網誌中的熱門文章

[Android] 筆記 手機上測試自己的 APP

解決fatal: Not a git repository (or any of the parent directories): .git錯誤

[Android 筆記] 設定 ImageView 的圖檔來源