Convert plaintext strings to data.frames for segsimflex

Usage

create_dfs(
  x,
  boundary_regex = c(",|\\.|(--)|\\?"),
  speaker_regex = " {0,1}[^\\s]*?: "
)

Arguments

x: The strings to be converted. Generally of length 2 (for the two annotations).
boundary_regex: Regular expression for boundaries.
speaker_regex: Regular expression for participant labels.

Value

A list of two data frames, one per annotator.

Examples

create_dfs(c("JOHN: Hello , how are you ? MARY: I am fine , thank you .", "JOHN: Hello how are you ? MARY: I am fine thank you ."))
#> $`Hello , how are you ? MARY: I am fine , thank you .`
#>   Speaker     Utterance
#> 1  JOHN:        Hello ,
#> 2  JOHN:  how are you ?
#> 3  MARY:    I am fine ,
#> 4  MARY:    thank you .
#> 
#> $`Hello how are you ? MARY: I am fine thank you .`
#>         Speaker             Utterance
#> JOHN:    JOHN:    Hello how are you ?
#>  MARY:   MARY:  I am fine thank you .
#> 
create_dfs(c("A: 下 雨 天 , 留 客 . 天 留 , 我 不 留 . B: 下 雨 天 , 留 客 天 , 留 我 不 ? 留 !", "A: 下 雨 天 留 客 . 天 留 我 不 留 . B: 下 雨 天 , 留 客 天 , 留 我 不 ? 留 ."))
#> $`下 雨 天 , 留 客 . 天 留 , 我 不 留 . B: 下 雨 天 , 留 客 天 , 留 我 不 ? 留 !`
#>   Speaker  Utterance
#> 1     A:  下 雨 天 ,
#> 2     A:     留 客 .
#> 3     A:     天 留 ,
#> 4     A:  我 不 留 .
#> 5     B:  下 雨 天 ,
#> 6     B:  留 客 天 ,
#> 7     B:  留 我 不 ?
#> 8     B:        留 !
#> 
#> $`下 雨 天 留 客 . 天 留 我 不 留 . B: 下 雨 天 , 留 客 天 , 留 我 不 ? 留 .`
#>   Speaker        Utterance
#> 1     A:  下 雨 天 留 客 .
#> 2     A:  天 留 我 不 留 .
#> 3     B:        下 雨 天 ,
#> 4     B:        留 客 天 ,
#> 5     B:        留 我 不 ?
#> 6     B:              留 .
#>