Google ColabのTPUでtransformerを学習

NLP 深層学習自然言語処理 transformer CoLab TPU メモ

注: この記事は2019年4月29日現在のColabとTensorflow(1.13)での話です。概要 kerasで書かれたtransformerをtf.kerasで書き直してGoogle Colabの無料で使えるTPU上で学習させた。デモとして「Wikipedia日英京都関連文書対訳コーパス」を使って英→日翻訳を…

2019-04-13

Sentencepieceの水増しをBERTで試してみる

メモ NLP BERT sentencepiece 対話システム深層学習自然言語処理

前回、事前学習済みのbertモデルbert-japaneseを使って対話破綻検知チャレンジ(Dialog Breakdown Detection Challenge)コーパスでのファインチューニングを行った。結果は決して悪いものではなかったが、当時(DBDC2)のトップモデルの性能には届かなかった。…

2019-04-13

BERTで対話破綻検知

メモ NLP BERT 深層学習自然言語処理対話システム

対話破綻検知チャレンジは人と対話システムとの雑談対話に対して○、△、×の3値分類を行うコンペティションで今まで3回行われている。データが公開刺されいるので、今回はこのタスクについてBERTをファインチューニングしてみる。対話破綻検知チャレンジ(Dia…

2019-04-11

新辞林

メモ

ノイズが少ない日本語語義リストを探していた。もちろんwikipediaでも良いのだが、もう少し基本的な語彙を含んでいるものがいい。そこでCD-ROM付き辞典がいいのではと思い付いた。例えば、以下は良さそうだ。旺文社国語辞典第９版三省堂ハイブリッド…

2019-04-10

sentencepiece APIの詳細を調べる (bert-japanese関連)

NLP メモ sentencepiece 自然言語処理

bert-japaneseのモデルを使っているとsentencepieceへの入力と出力が異なる場合がしばしばあって、文字数のずれが気になったのでsentencepieceについてもう少し調べた。 sentencepieceのNormalizerは何をしてる sentencepieceのテキストのノーマライズ処理は…

2019-04-09

bert-japaneseの学習済みsentencepieceモデルを眺める

NLP メモ BERT 深層学習自然言語処理 sentencepiece

bert-japaneseでは日本語のテキストのトークン化にsentencepieceが使われる。日本語版wikipedia(リポジトリのconfig.iniによると20181220のダンプ)で学習されたsentencepieceのモデルが作者のサイトのgoogle driveで公開されている。今回はこのsentencepie…