gibasa（日本語テキスト分析のためのRパッケージ）の紹介

	手法	Rパッケージ
ICU	ルールベース	stringi (audubon, tokenizers, quanteda)
MeCab	形態素解析	RMeCab, RcppMeCab, gibasa
Sudachi	形態素解析	sudachir
Sentencepiece	機械学習	sentencepiece
Byte Pair Encoding	機械学習	tokenizers.bpe
Universal Dependencies	訓練済みモデル	spacyr, udpipe (cleanNLP)

gibasa::tokenize & gibasa::prettify

データフレーム中の日本語テキスト列についてtidy text（data frame of tokens）に整形する

audubon::polano[5]
#> [1] "そのころわたくしは、モリーオ市の博物局に勤めて居りました。"
res <-
  data.frame(
    doc_id = seq_len(length(audubon::polano[5:800])),
    text = audubon::polano[5:800]
  ) |>
  gibasa::tokenize(text, doc_id) |>
  gibasa::prettify(into = gibasa::get_dict_features("ipa"))

dplyr::slice_head(res, n = 5L)
#>   doc_id sentence_id token_id    token   POS1   POS2     POS3 POS4 X5StageUse1 X5StageUse2 Original    Yomi1    Yomi2
#> 1      1           1        1     その 連体詞   <NA>     <NA> <NA>        <NA>        <NA>     その     ソノ     ソノ
#> 2      1           1        2     ころ   名詞 非自立 副詞可能 <NA>        <NA>        <NA>     ころ     コロ     コロ
#> 3      1           1        3 わたくし   名詞 代名詞     一般 <NA>        <NA>        <NA> わたくし ワタクシ ワタクシ
#> 4      1           1        4       は   助詞 係助詞     <NA> <NA>        <NA>        <NA>       は       ハ       ワ
#> 5      1           1        5       、   記号   読点     <NA> <NA>        <NA>        <NA>       、       、       、

gibasa（日本語テキスト分析のためのRパッケージ）の紹介

誰？

話すこと

テキスト分析は「テキスト」の何をどう分析したいのか？

テキスト（文章）の特徴とは

テキスト分析のための前処理

分かち書きするための道具

gibasaパッケージでやりたいこと

gibasa::tokenize & gibasa::prettify

gibasa::pack

gibasaの速さについて (1/2)

gibasaの速さについて (2/2)

どういうときにgibasaを使う？

おわり