Skip to contents

Parse XML output of CaboCha

Usage

ppn_parse_xml(
  path,
  into = c("POS1", "POS2", "POS3", "POS4", "X5StageUse1", "X5StageUse2", "Original",
    "Yomi1", "Yomi2"),
  col_select = seq_along(into)
)

Arguments

path

String; output from pipian::ppn_cabocha.

into

Character vector; feature names of output.

col_select

Character or integer vector; features that will be kept in the result.

Value

A data.frame.

Examples

head(ppn_parse_xml(system.file("sample.xml", package = "pipian")))
#>   doc_id sentence_id chunk_id token_id    token chunk_link chunk_score
#> 1      1           1        1        0     ふと          2    1.287564
#> 2      1           1        2        1 振り向く         37   -2.336376
#> 3      1           1        2        2       と         37   -2.336376
#> 4      1           1        2        3       、         37   -2.336376
#> 5      1           1        3        4 たくさん          4    1.927252
#> 6      1           1        3        5       の          4    1.927252
#>   chunk_head chunk_func entity POS1     POS2 POS3 POS4      X5StageUse1
#> 1          1          0   <NA> 副詞     一般 <NA> <NA>             <NA>
#> 2          2          2   <NA> 動詞     自立 <NA> <NA> 五段・カ行イ音便
#> 3          2          2   <NA> 助詞 接続助詞 <NA> <NA>             <NA>
#> 4          2          2   <NA> 記号     読点 <NA> <NA>             <NA>
#> 5          5          5   <NA> 名詞 副詞可能 <NA> <NA>             <NA>
#> 6          5          5   <NA> 助詞   連体化 <NA> <NA>             <NA>
#>   X5StageUse2 Original    Yomi1    Yomi2
#> 1        <NA>     ふと     フト     フト
#> 2      基本形 振り向く フリムク フリムク
#> 3        <NA>       と       ト       ト
#> 4        <NA>       、       、       、
#> 5        <NA> たくさん タクサン タクサン
#> 6        <NA>       の       ノ       ノ