李宏毅机器学习课程笔记-9.6基于RNN和PyTorch的文本情感分类

本文为作者学习李宏毅机器学习课程时参照样例完成homework4的记录。

全部课程PPT、数据和代码下载链接:

链接:https://pan.baidu.com/s/1n_N7aoaNxxwqO03EmV5Bjg 提取码:tpmc

代码仓库:https://github.com/chouxianyu/LHY_ML2020_Codes

  • 任务描述

    通过RNN实现文本情感分类(Text Sentiment Classification)。

  • 数据集描述

    输入是1个句子,输出是0(负面)或1(正面)。

    训练集:标注数据20万,无标注数据120万

    测试集:20万(无标注)

  • 数据格式

    • training_label.txt:label +++$+++ sentence,其中+++$+++只是分隔符
    • training_nolabel.txt:每一行就是一个句子,没有label
    • testing_data.txt:
  • 数据预处理

    一个句子(sentence)中有多个word,我们需要通过Word Embedding(我的其它文章里有介绍)用一个vector表示一个word, 然后使用RNN得到一个表示该sentence的vector。

  • 半监督学习

    这里使用一种半监督学习方法:Self-Training(我的其它文章里有介绍)。使用有标签数据训练好模型,然后对无标签数据进行预测,并根据预测结果对无标签数据进行标注(“伪标签”)并继续训练模型

  • 第三方库

    使用Python第三方库gensim实现word2vec模型,以进行Word Embedding。

  • 代码

    https://github.com/chouxianyu/LHY_ML2020_Codes/tree/master/hw4_RNN


Github(github.com):@chouxianyu

Github Pages(github.io):@臭咸鱼

知乎(zhihu.com):@臭咸鱼

博客园(cnblogs.com):@臭咸鱼

B站(bilibili.com):@绝版臭咸鱼

微信公众号:@臭咸鱼

转载请注明出处,欢迎讨论和交流!