NLP上手教程
新加入本实验室的同学,请按要求完成下面练习,并提交报告。
请完成每次练习后把report上传到QQ群中的共享文件夹中的“Reports of nlp-beginner”目录,文件命名格式为“task 1+姓名”。
参考:
实现基于logistic/softmax regression的文本分类
参考
数据集:Classify the sentiment of sentences from the Rotten Tomatoes dataset
实现要求:NumPy
需要了解的知识点:
实验:
时间:两周
熟悉Pytorch,用Pytorch重写《任务一》,实现CNN、RNN的文本分类;
参考
word embedding 的方式初始化
随机embedding的初始化方式
用glove 预训练的embedding进行初始化 https://nlp.stanford.edu/projects/glove/
知识点:
时间:两周
输入两个句子判断,判断它们之间的关系。参考ESIM(可以只用LSTM,忽略Tree-LSTM),用双向的注意力机制实现。
用LSTM+CRF来训练序列标注模型:以Named Entity Recognition为例。
用LSTM、GRU来训练字符级的语言模型,计算困惑度