Google ColabのTPUでtransformerを学習

NLP 深層学習自然言語処理 transformer CoLab TPU メモ

注: この記事は2019年4月29日現在のColabとTensorflow(1.13)での話です。概要 kerasで書かれたtransformerをtf.kerasで書き直してGoogle Colabの無料で使えるTPU上で学習させた。デモとして「Wikipedia日英京都関連文書対訳コーパス」を使って英→日翻訳を…

2019-04-13

Sentencepieceの水増しをBERTで試してみる

メモ NLP BERT sentencepiece 対話システム深層学習自然言語処理

前回、事前学習済みのbertモデルbert-japaneseを使って対話破綻検知チャレンジ(Dialog Breakdown Detection Challenge)コーパスでのファインチューニングを行った。結果は決して悪いものではなかったが、当時(DBDC2)のトップモデルの性能には届かなかった。…

2019-04-13

BERTで対話破綻検知

メモ NLP BERT 深層学習自然言語処理対話システム

対話破綻検知チャレンジは人と対話システムとの雑談対話に対して○、△、×の3値分類を行うコンペティションで今まで3回行われている。データが公開刺されいるので、今回はこのタスクについてBERTをファインチューニングしてみる。対話破綻検知チャレンジ(Dia…

2019-04-09

bert-japaneseの学習済みsentencepieceモデルを眺める

NLP メモ BERT 深層学習自然言語処理 sentencepiece

bert-japaneseでは日本語のテキストのトークン化にsentencepieceが使われる。日本語版wikipedia(リポジトリのconfig.iniによると20181220のダンプ)で学習されたsentencepieceのモデルが作者のサイトのgoogle driveで公開されている。今回はこのsentencepie…

2019-04-08

BERTのファインチューニング

メモ NLP 自然言語処理深層学習 BERT

時間に余裕ができたのでBERTを触ってみる。日本語での性能が気になるのでyoheikikutaさんの学習済みモデルとリポジトリを基とする。 Livedoorニュースコーパスの分類タスクのファインチューニングコーパス Livedoorニュースコーパスは日本語テキストコーパ…