【新闻源监控系统】具备了自然语言处理特性

新闻源监控系统】发布了0.3.1版本,作为技术探索性项目,本次更新在0.2.0的基础上,增加如下新特性:

  • 爬虫与 API 部署到 docker 容器中
  • 系统具有了人工智能 NLP 特性,包括关键字提取、新闻分类、情感评价。模型都采用 NLP 工具现成的,在情感评价和新闻分类上的准确率还有待提高。
  • 关键字提取使用 HanLP
  • 新闻分类使用 THUCTC
  • 情感评价使用 SnowNLP
  • 移植爬虫到 python scrapy 框架下

顺着新闻分类的开发,看了一下朴素贝叶斯算法,不过还需要先复习复习线性代数。

文章《我是如何用机器学习技术帮助 HR 省时间的》中,提到的三种机器学习的文本分类算法: TextGrocery,fastText,Naive Bayes都值得一一细看一下。

分享