我看好像所有语料都是连在一起的 那么第一句的末尾词和第二句开头词也是有关系的 按道理来说不应该是有关系的,想问下有什么定论吗?
1
princelai 2021-05-07 15:56:16 +08:00
开头连着结尾是合理的,比如文本生成,生成到句号,需要根据上 N 个词和句号来继续生成下一句话的开头。
而且就算真的没有上下文关系,只要你的每句话够长,那么不管 window=5 还是 7,都只有少部分两句话被关联起来了,对于整体的分布影响不大。 最后如果你非纠结这个问题,那你自己 split('.;')或者正则分割一下不就好了吗 |