人工智能完整詞典
一种将文档集合转换为词元出现次数矩阵的转换方法。提供基本的频率表示,不进行归一化或TF-IDF加权。
一种将单词分割成更小单元(子词)的分词方法,用于处理未知词汇和稀有词。如BPE、WordPiece或SentencePiece等算法根据频率优化分词。