我有雨天: 關於Big Data

Sent to you by Zhiyuan via Google Reader:

關於Big Data

這兩天看到兩位學長們寫的，關於Big Data的好文，貼在最這邊分享給大家

翟本喬學長寫的「IoT 和 Big Data 商機的迷思」
https://www.facebook.com/notes/ben-jai/iot-%E5%92%8C-big-data-%E5%95%86%E6%A9%9F%E7%9A%84%E8%BF%B7%E6%80%9D/10151577263144113

洪士灝學長寫的
「Big Data技術是台灣的未來？是有機會的，但是不要編神話好嗎？」
http://hungsh-ntucsie.blogspot.tw/2013/04/big-data.html
「什麼是Big Data研究」
http://hungsh-ntucsie.blogspot.tw/2013/04/big-data_18.html

我自己也想發表點簡單的意見，我才疏學淺，見識遠不及學長們，只是說說自己的經驗和想法

我接觸Big Data是在Facebook加入第一個組：Data Infrastructure的時候，在這個組我做的是Hadoop的開發，我是Facebook早期從事Hadoop開發的人員之一，Facebook有兩個重要的Hadoop項目：HDFS-RAID和Corona我都有參與，寫了不少的程式（見註一）。我也是第一個Facebook自己培養出來的Hadoop Committer（見註二），也實際操作過數千台的Hadoop機群

我現在沒有在從事Hadoop本身開發了，但是現在在的Search Team使用Hadoop來建立索引，是Hadoop的上層重度使用者。總之我對Big Data是有一些背景的，從底層怎麼實作、管理到最上層如何使用都有一些了解

什麼是Big Data？我想簡單的說就是資料太大，大到一台機器沒辦法放下，要用幾十、甚至幾千台電腦來放，資料放在分散的機器上面，計算和儲存上面跟以前非常不同，所以有很多新的技術問題。Hadoop只是其中一個處理Big Data的軟體，還有很多其他的軟體，只是Hadoop是免費的開放程式碼，又有Yahoo、Facebook、Twitter、Netflix這些大公司在使用、支援，所以非常流行。才會讓大家有一個印象認為Big Data就是Hadoop

我覺得Big Data這幾年會變這麼紅，我想主要是因為分散式系統有很多有趣的問題，所以學術界非常喜愛，因為可以出很多paper。另一個因素是Internet巨頭們的掘起，Internet巨頭們都是Big Data的使用者，大家對Internet巨頭的關注也捧紅了Big Data這個詞

Internet公司有非常非常多的資料，因為網站可以不停的收集資料，使用資料來改善產品。資料對Internet巨頭們來說是非常重要的資產，網路應用跟傳統應用軟體一個很大不同的地方就是網路應用可以即時收集使用者資料，使用它來分析進而做出改進，而且網站能在很短時間內把這些改進佈署更新，這些是傳統單機軟體沒辦法做到的事情。除了Internet巨頭之外，其他可能會收集很多資料的公司，例如物流巨頭Walmart，也有Big Data的需求

美國有不少Big Data Solution的公司，特別是有很多新創公司。比較大間的是Hortonworks和Cloudera這兩間，Hortonworks是Yahoo的spin-off裡面的人都是原來Hadoop的開發人員，Cloudera則是有Hadoop的Founder坐鎮，我以前做Hadoop的時候和這兩家公司的人都有一些接觸，這兩家公司裡面的人都非常強，工程師的素質不亞於Google、Facebook這些名門大派。這兩家公司賺錢的主要方法，是賣Hadoop週邊的管理、監控軟體、維修服務，還有賣Hadoop的訓練和認證。我還有看到一些新創公司，則是賣Hadoop上層的工具，像是Hive或是更上層business logic的軟體

巨頭公司們都有自己養很多做Hadoop的小兵，所以不會用到這幾家公司的Solution。會用到他們東西的，都是一些中型的公司，或是不擅長軟體的公司。再來很小的公司也用不到這些東西，小公司沒有那麼多的資料需要放到分散式系統

另一種賺錢的方法就是提供平台租用的服務，這方面最成功的就是Amazon，你可以在Amazon AWS上面存很多資料然後跑Hadoop，這樣就不用自己養很多機器。我自己沒有實際用過，不過我猜想這應該是你已經把網路服務放在AWS上面才會好用（像是Netflix、Dropbox等等公司），不然你還要另外把自己的資料上傳到AWS上面才行

台灣要怎麼在Big Data上賺錢？

台灣強項是硬體，但近年來大家了解硬體比較不容易賺錢。我想不好賺的原因主要在沒有差異性：如果我賣一個記憶體跟你賣一個記憶體，都長得一模一樣，就沒什麼好比了，只好比價錢，只比價錢的結果就變成一個完全競爭的市場，最後沒有利潤可賺。一般而言，愈低層的東西就愈沒有差異性，愈不好賺，尤其是那些照著標準做出來的東西，幾乎沒有差異性可言

台灣如果想在Big Data上賺錢，應該想辦法去做軟體或是服務。台灣有硬體上的優勢，我猜比較有可能做的就是仗著這方面的優勢去做平台服務或是做一些週邊軟體跟硬體一起賣（當然前題是要做到真正好用，不要做得像有些筆電裡面預裝的爛軟體）增加硬體的附加價值，也順便培養自己軟體的實力。不過我要強調這只是我天真的想法，事實上我對這方面的了解非常淺，我只是一個工人

不知不覺寫這麼長，我自己快累死了，如果你能看到這裡都沒跳，我給你一個讚

註一：
http://pinky-monkey.blogspot.com/2012/11/blog-post.html

註二：
http://pinky-monkey.blogspot.com/2010/09/hadoop-committer.html

（此圖為Hadoop Logo）

Things you can do from here:

Subscribe to 我是有生產力的人 using Google Reader
Get started using Google Reader to easily keep up with all your favorite sites

我有雨天

Monday, April 29, 2013

關於Big Data

Sent to you by Zhiyuan via Google Reader:

關於Big Data

Things you can do from here:

No comments:

Blog Archive

Monday, April 29, 2013

關於Big Data

Sent to you by Zhiyuan via Google Reader:

關於Big Data

Things you can do from here:

No comments:

Blog Archive

Subscribe