group_by和unnest_tokens之后的row

问题描述

在group_by块中标记化后，我试图更改行号，并得到一个错误：错误：无法将大小为73422的输入回收到大小为37055。运行rlang::last_error()以查看错误发生的位置。

library(tidyverse)
library(tidytext)
library(janeaustenr)

all_sentences <- austen_books() %>%
  group_by(book) %>%
  unnest_tokens(sentence,text,token = "sentences") %>%
  mutate(s_number = row_number()) %>%
  ungroup()

取消分组并重新分组后。

all_sentences <- austen_books() %>%
  group_by(book) %>%
  unnest_tokens(sentence,token = "sentences") %>%
  ungroup() %>%
  group_by(book) %>%
  mutate(s_number = row_number()) %>%
  ungroup()

但是似乎很尴尬请指教

解决方法

只需在unnest_tokens语句之后将group_by移至。像这样：

all_sentences <- austen_books() %>%
  unnest_tokens(sentence,text,token = "sentences") %>%
  group_by(book) %>%
  mutate(s_number = row_number()) %>%
  ungroup()

r r tidytext

group_by和unnest_tokens之后的row_number错误

问题描述

解决方法