常用文本挖掘/NLP 算法汇总

WORD2VEC GLOVE FASTTEXT DOC2VEC

TFIDF PLSA LDA HMM CRF

DSSM BERT TRANSFORMER TEXTRANK SEQ2SEQ LSTM BILSTM TEXTCNN CRNN RCNN

1.

文本聚类

方法1 tfidf+ kmeans/gmm 机器学习方法

方法2 word2vec+kmeans 机器学习方法

方法3 tfidf+lda 机器学习方法

2.文本分类

方法1: tfidf+svm/lr 机器学习方法

方法2: tfidf + textcnn/fasttext/crnn 深度学习方法

3.文本摘要:

seq2seq

textrank

4.词性标注开源工具,参考如下使用

1.推荐哈工大的 https://github.com/HIT-SCIR/ltp 支持python / java / c++

英文的话推荐https://github.com/explosion/spaCy 并继续关注spacy的中文版的开发情况https://github.com/howl-anderson/Chinese_models_for_SpaCy

5.文本近义词:

1.word2vec

  1. THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:

能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。

准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。

速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。

软件地址:

http://thulac.thunlp.org/

  1. stanford NLP

4.nltk

6.Bert学习

7.PyTorch 研究学习

NLP

1应用层面:聊天机器人,文本聚类/分类, 机器翻译 ,自动摘要。找到相关课程研究学习

2.理论层面:秦曾昌NLP,天善智能NLP,炼数成金NLP 七月在线NLP 宗老师nlp

8.文档排序

lda/kmeans + dssm