Google Analytic

2015年10月18日 星期日

WIN系統上使用python的word2vec Use word2vec function on windows by python

word2vec是Google開源的word to vector工具,通過將詞映射到N維的向量空間,然後基於這個進行聚類、找近似詞以及詞性分析等。基本上word2vec適用於mac系統或linux系統,所以若要在win系統上使用, 可以使用Python virtualenv 虛擬環境如:Anaconda,或者利用GENSIM包中的word2vec。

2015年10月8日 星期四

Mongodb 多key匯出方法--fieldFile Mutil-key for Mongoexport

Mongodb是一NoSql資料庫,資料庫資料要匯出或備份往往是很麻煩的一件事,在此Mongodb自帶匯出 / 匯入工具Mongoexport / Mongoimport,可以匯出csv及jason。此時最怕有很多欄位的表格了,因為關於欄位的方法Mongoexport只接受list,網路上有提供一個一鍵全寫的方法,試了加上其他方法都沒用,故在此闢謠....。

2015年10月6日 星期二

在Window下使用iconv工具 Windows ICONV tool

檔案轉碼相信是很多人很多時候都會碰到的問題,不難但是常常誤踩到。iconv是linux下相當好用的的轉碼工具,但是我們不是總是會在linux的環境下工作的,有人說可以直接把檔案開啟在另存新檔的時候就可以選編碼了阿,幹嘛這麼麻煩還要用工具。

當然開一個檔案用GUI沒問題,但是當你有一批資料要轉換時,不會想要用按的吧,這裡告訴大家怎麼在window下使用iconv

2015年10月2日 星期五

Mongomdb與Hadoop的連接套件 mongo-hadoop connector


最近推出一個mongomdb與hadoop間的溝通利器:mongo-hadoop connector [Github]
提供Mongodb與hadoop ecosystem之間的溝通,根據資料可以與以下做傳輸






  • Pig
  • Spark
  • MapReduce
  • Hadoop Streaming
  • Hive
  • Flume


進入後按照步驟執行應該會順利得到相關的jar檔,但因為某些原因我在一開始就卡住了,所以提供其他方法

在最開始的步驟./gradlew jar


Downloading https://services.gradle.org/distributions/gradle-2.2.1-all.zip 這步驟時有時會連線逾時,導致無法順利進行下一步 ( 當時我是該網站掛了 ),反正目的是得到jar檔,所以可以到這裡 https://oss.sonatype.org/content/repositories/releases/org/mongodb/ 來另外下載舊版的jar檔,放到相關服務的lib路徑中,譬如要與pig連接就到pig的lib中把相關的jar都放入。
  • $HADOOP_HOME/lib/
  • $HADOOP_HOME/share/hadoop/mapreduce/
  • $HADOOP_HOME/share/hadoop/lib/

例如pig中就能 raw = LOAD 'mongodb://localhost:27017/demo.yield_historical.in'<---monbodb資料來源 USING com.mongodb.hadoop.pig.MongoLoader();  讀到mongodb中的資料摟



Related Posts Plugin for WordPress, Blogger...