MacQing
diff --git a/‎jupyter/codeTest.ipynb
+173-30 b/‎jupyter/codeTest.ipynb
+173-30
@@ -22,7 +22,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 1,
+   "execution_count": 23,
    "metadata": {
     "collapsed": false
    },
@@ -46,7 +46,7 @@
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "Loading model cost 1.042 seconds.\n",
+      "Loading model cost 1.214 seconds.\n",
       "Prefix dict has been built succesfully.\n"
      ]
     },
@@ -63,10 +63,69 @@
     {
      "data": {
       "text/plain": [
-       "{'doc_title': ['南', '天', '信息', '管理层', '增持', '86', '万股'], 'doc_type': 'IT'}"
+       "{'doc_content': ['本期',\n",
+       "  '节目',\n",
+       "  '内容',\n",
+       "  '介绍',\n",
+       "  '关注',\n",
+       "  '机动车',\n",
+       "  '驾驶证',\n",
+       "  '申领',\n",
+       "  '和',\n",
+       "  '使用',\n",
+       "  '规定',\n",
+       "  '搜狐',\n",
+       "  '汽车',\n",
+       "  '广播',\n",
+       "  '诚邀',\n",
+       "  '全国',\n",
+       "  '各地',\n",
+       "  '强势',\n",
+       "  '电台',\n",
+       "  '真情',\n",
+       "  '加盟',\n",
+       "  '携手',\n",
+       "  '打造',\n",
+       "  '中国',\n",
+       "  '汽车',\n",
+       "  '广播',\n",
+       "  '最强',\n",
+       "  '容',\n",
+       "  '把脉',\n",
+       "  '全球',\n",
+       "  '汽车产业',\n",
+       "  '风向标',\n",
+       "  '引领',\n",
+       "  '时尚',\n",
+       "  '汽车',\n",
+       "  '消费',\n",
+       "  '的',\n",
+       "  '参考书',\n",
+       "  '搜狐',\n",
+       "  '汽车',\n",
+       "  '广播',\n",
+       "  '车旅',\n",
+       "  '杂志',\n",
+       "  '服务',\n",
+       "  '我们',\n",
+       "  '的',\n",
+       "  '汽车',\n",
+       "  '生活',\n",
+       "  '加盟',\n",
+       "  '热线',\n",
+       "  '13381202220',\n",
+       "  '010',\n",
+       "  '62729907',\n",
+       "  '独家',\n",
+       "  '出品',\n",
+       "  '搜狐',\n",
+       "  '汽车',\n",
+       "  '事业部'],\n",
+       " 'doc_title': ['搜狐', '汽车', '广播', '车旅', '杂志', '2012', '06', '20', '期'],\n",
+       " 'doc_type': '汽车'}"
       ]
      },
-     "execution_count": 1,
+     "execution_count": 23,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -97,7 +156,7 @@
     "    return tokens\n",
     "\n",
     "# 对新闻标题进行分词，得到带分词的新闻数据\n",
-    "tokenSougouNews = featurelize(sougouNews, fields=['doc_title'], analyzer=Analyzer())\n",
+    "tokenSougouNews = featurelize(sougouNews, fields=['doc_title', 'doc_content'], analyzer=Analyzer())\n",
     "print('完成对新闻标题的分词')\n",
     "\n",
     "# 将分词后的结果dump到本地\n",
@@ -159,14 +218,14 @@
    "source": [
     "import pickle\n",
     "\n",
+    "    \n",
+    "with open('tokenSougouNews-test.pk', 'rb') as f:\n",
+    "    testData = pickle\n",
     "with open('tokenSougouNews-train.pk', 'rb') as f:\n",
     "    trainData = pickle.load(f)\n",
     "trainX = [dict(doc_title=' '.join(d['doc_title'])) for d in trainData]\n",
     "trainY = [d['doc_type'] for d in trainData]\n",
-    "print('train size=%d' % (len(trainX)))\n",
-    "    \n",
-    "with open('tokenSougouNews-test.pk', 'rb') as f:\n",
-    "    testData = pickle.load(f)\n",
+    "print('train size=%d' % (len(trainX))).load(f)\n",
     "testX = [dict(doc_title=' '.join(d['doc_title'])) for d in testData]\n",
     "testY = [d['doc_type'] for d in testData]\n",
     "print('test size=%d' % (len(testX)))"
@@ -227,7 +286,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 11,
+   "execution_count": 16,
    "metadata": {
     "collapsed": false
    },
@@ -244,6 +303,7 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
+      "tfidf+lr: trainAcc=0.913848, testAcc=0.869774\n",
       "tfidf+multiNB: trainAcc=0.867886, testAcc=0.821235\n",
       "tfidf+svm: trainAcc=0.981018, testAcc=0.895906\n"
      ]
@@ -252,23 +312,33 @@
    "source": [
     "from sklearn.naive_bayes import MultinomialNB, BernoulliNB\n",
     "from sklearn.svm import LinearSVC\n",
+    "from sklearn.linear_model import LogisticRegression\n",
     "from sklearn.pipeline import Pipeline\n",
     "from sklearn.metrics import accuracy_score\n",
     "\n",
+    "# tfidf + lr\n",
+    "lrClf = Pipeline([('tfidfVectorizor', TfidfVectorizor(['doc_title'])),\n",
+    "                 ('lr', LogisticRegression())])\n",
+    "lrClf.fit(trainX, trainY)\n",
+    "\n",
+    "trainAcc = accuracy_score(trainY, lrClf.predict(trainX))\n",
+    "testAcc = accuracy_score(testY, lrClf.predict(testX))\n",
+    "print('tfidf+lr: trainAcc=%f, testAcc=%f' % (trainAcc, testAcc))\n",
+    "\n",
+    "# tfidf + nb\n",
     "nbClf = Pipeline([('tfidfVectorizor', TfidfVectorizor(['doc_title'])),\n",
     "                 ('multinomialNB', MultinomialNB())])\n",
     "nbClf.fit(trainX, trainY)\n",
     "\n",
-    "# 计算误差\n",
     "trainAcc = accuracy_score(trainY, nbClf.predict(trainX))\n",
     "testAcc = accuracy_score(testY, nbClf.predict(testX))\n",
     "print('tfidf+multiNB: trainAcc=%f, testAcc=%f' % (trainAcc, testAcc))\n",
     "\n",
+    "# tfidf + svm\n",
     "svmClf = Pipeline([('tfidfVectorizor', TfidfVectorizor(['doc_title'])),\n",
     "                 ('svm', LinearSVC())])\n",
     "svmClf.fit(trainX, trainY)\n",
     "\n",
-    "# 计算误差\n",
     "trainAcc = accuracy_score(trainY, svmClf.predict(trainX))\n",
     "testAcc = accuracy_score(testY, svmClf.predict(testX))\n",
     "print('tfidf+svm: trainAcc=%f, testAcc=%f' % (trainAcc, testAcc))"
@@ -285,7 +355,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 12,
+   "execution_count": 17,
    "metadata": {
     "collapsed": false
    },
@@ -300,10 +370,10 @@
     {
      "data": {
       "text/plain": [
-       "<__main__.Doc2VecVectorizor at 0x1fd4fd75710>"
+       "<__main__.Doc2VecVectorizor at 0x1fd5007cf98>"
       ]
      },
-     "execution_count": 12,
+     "execution_count": 17,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -312,7 +382,7 @@
     "from gensim.models import Word2Vec\n",
     "\n",
     "class Doc2VecVectorizor(object):\n",
-    "    def __init__(self, fields, size=200, window=3, min_count=1):\n",
+    "    def __init__(self, fields, size=100, window=3, min_count=1):\n",
     "        self.fields = fields\n",
     "        self.size = size\n",
     "        self.window = window\n",
@@ -352,27 +422,27 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 13,
+   "execution_count": 18,
    "metadata": {
     "collapsed": false
    },
    "outputs": [
     {
      "data": {
       "text/plain": [
-       "[('老年人', 0.974733293056488),\n",
-       " ('日内瓦', 0.9729659557342529),\n",
-       " ('国际足球', 0.9727454781532288),\n",
-       " ('专访', 0.9721158146858215),\n",
-       " ('搜狐', 0.9709295034408569),\n",
-       " ('第九届', 0.9708148241043091),\n",
-       " ('舞蹈节', 0.9674550294876099),\n",
-       " ('文化周', 0.9654016494750977),\n",
-       " ('日程安排', 0.9652378559112549),\n",
-       " ('作文题', 0.9637157320976257)]"
+       "[('舞蹈节', 0.9734185934066772),\n",
+       " ('专访', 0.9699808955192566),\n",
+       " ('老年人', 0.9686485528945923),\n",
+       " ('日内瓦', 0.9671200513839722),\n",
+       " ('搜狐', 0.9666953086853027),\n",
+       " ('看车', 0.963032603263855),\n",
+       " ('国际足球', 0.9596318006515503),\n",
+       " ('广汽传祺', 0.9582968950271606),\n",
+       " ('篮联', 0.9582201242446899),\n",
+       " ('海河', 0.9577779173851013)]"
       ]
      },
-     "execution_count": 13,
+     "execution_count": 18,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -381,6 +451,28 @@
     "doc2vec.word2vec.wv.similar_by_word(word='体育', topn=10)"
    ]
   },
+  {
+   "cell_type": "code",
+   "execution_count": 20,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "100"
+      ]
+     },
+     "execution_count": 20,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "doc2vec.word2vec.vector_size"
+   ]
+  },
   {
    "cell_type": "markdown",
    "metadata": {},
@@ -390,7 +482,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 15,
+   "execution_count": 19,
    "metadata": {
     "collapsed": false
    },
@@ -408,7 +500,7 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "doc2vec+svm: trainAcc=0.706894, testAcc=0.709253\n"
+      "doc2vec+svm: trainAcc=0.705841, testAcc=0.708672\n"
      ]
     }
    ],
@@ -424,6 +516,57 @@
     "testAcc = accuracy_score(testY, svmClf.predict(testX))\n",
     "print('doc2vec+svm: trainAcc=%f, testAcc=%f' % (trainAcc, testAcc))"
    ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### tf-idf加权的word2vec + classification\n",
+    "#### tf-idf加权的word2vec"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "from gensim.models import Word2Vec\n",
+    "\n",
+    "class Doc2VecVectorizor(object):\n",
+    "    def __init__(self, tfidfVectorizor, word2vecVectorizor, fields):\n",
+    "        self.tfidfVectorizor = tfidfVectorizor\n",
+    "        self.word2vecVectorizor = word2vecVectorizor\n",
+    "        self.fields = fields\n",
+    "        \n",
+    "    def fit(self, X, y=None):\n",
+    "        return self\n",
+    "    \n",
+    "    def transform(self, X):\n",
+    "        \"\"\"\n",
+    "        计算文档的特征向量\n",
+    "        1. 对每个属性，计算每个词的tfidf-vector和word-vector，然后将所有词的两个vector的加权平均向量作为该属性的vector\n",
+    "        2. 所有属性的vector，flatten为一个宽vector，作为该文档的特征向量\n",
+    "        \"\"\"\n",
+    "        return np.array([self.__doc2vec(x) for x in X])\n",
+    "        \n",
+    "    def __sentence2vec(self, sentence):\n",
+    "        if len(sentence.strip()) == 0:\n",
+    "            return np.zeros(self.size)\n",
+    "        vectors = [self.word2vecVectorizor[word]*self.tfidfVectorizor.transform() \n",
+    "                   if word in self.word2vecVectorizor else np.zeros(self.size) \n",
+    "                   for word in sentence.split()]\n",
+    "        return np.mean(vectors, axis=0)\n",
+    "    \n",
+    "    def __doc2vec(self, doc):\n",
+    "        vectors = np.array([self.__sentence2vec(doc[field]) for field in self.fields])\n",
+    "        return vectors.flatten()\n",
+    "    \n",
+    "doc2vec = Doc2VecVectorizor(fields=['doc_title'])\n",
+    "doc2vec.fit(trainX)"
+   ]
   }
  ],
  "metadata": {