注:博文轉載、語料庫使用,請注明提供者、來源以及空間提供方。
免責聲明:此語料庫僅供自然語言處理的業余愛好者研究和交流,禁止用于任何商業用途(包括在資源內部鏈接廣告等行為)。
感謝網易新聞中心、騰訊新聞中心、鳳凰新聞中心以及新浪新聞中心提供新聞素材。新聞著作權歸以上網站所有,任何人未經上述公司允許不得抄襲。
語料庫下載地址:
語料素材來源: 鳳凰新聞中心、網易新聞中心、騰訊新聞中心、新浪新聞中心。
語料庫整理提供者: finallyliuyu
語料庫空間提供方: 博客園(無償提供)
說明:
1、此語料庫非職務作品,由本人在業余時間搜集整理,免費提供給對NLP狂熱的業余愛好者學習研究使用;本人是自然語言處理的業余愛好者,在類別定義等方面都可能存在一些欠缺,歡迎大家提出寶貴意見和建議;
2、下載地址提供的是MS SQL2000數據庫的備份文件。使用此數據庫,您需要安裝 MS SQL2000 server,然后將corpus.rar解壓并還原。壓縮包大小為54.8M,共包含39247篇新聞,分為歷史、軍事、文化、讀書、教育、IT、娛樂、社會與法制等八個類別。歷史類、文化類、讀書類新聞來自于鳳凰網,IT類的新聞全部來自tech.qq,教育類的新聞來自edu.qq,娛樂類的新聞來自網易。社會與法制類的新聞來自于新浪和騰訊的幾個版面;
3、需要特別注意的是,有的新聞在開頭處有大量空白,因此在查詢數據庫ArticleText字段中有大片空白的,不是空新聞,是整個新聞體截斷顯示的緣故。
4、有關語料庫的其他情況,請參考《獻給熱衷于自然語言處理的業余愛好者的中文新聞分類語料庫之一》。
我本人在此語料庫做過的驗證性實驗有:《KL語義距離計算系列》 ,《Kmeans聚類系列》以及《文本分類和特征詞選擇系列》。
感謝DUDU在博客園無償幫忙提供空間;也感謝博客園團隊。衷心祝愿你們越辦越好!
相關文章:“我愛自然語言處理”兩周歲自動作文評分與自然語言處理fastText原理及實踐(達觀數據王江)
文章導航
微軟:Web N-gram Services
請求捐贈短信,為短信語料庫的創建出一份力