Class TextUtil


  • public abstract class TextUtil
    extends java.lang.Object
    • Constructor Detail

      • TextUtil

        public TextUtil()
    • Method Detail

      • getCharacterFrequencies

        public static final DenseDoubleMatrix2D getCharacterFrequencies​(java.lang.String s,
                                                                        char... validCharacters)
      • splitLineIntoSentences

        public static final java.util.List<java.lang.String> splitLineIntoSentences​(java.lang.String line)
      • splitTextIntoObjects

        public static final DefaultTextBlock splitTextIntoObjects​(java.lang.String text)
      • createWordTrigrams

        public static final java.util.List<java.util.List<java.lang.String>> createWordTrigrams​(java.lang.String text)
      • splitTextIntoLines

        public static final java.util.List<java.lang.String> splitTextIntoLines​(java.lang.String text)
      • createWordBigrams

        public static final java.util.List<java.util.List<java.lang.String>> createWordBigrams​(java.lang.String text)
      • createWordUnigrams

        public static final java.util.List<java.lang.String> createWordUnigrams​(java.lang.String text,
                                                                                int ngramSize)
      • getWordBigramCounts

        public static java.util.Map<java.util.List<java.lang.String>,​java.lang.Integer> getWordBigramCounts​(java.lang.String text)
      • getWordUnigramCounts

        public static java.util.Map<java.lang.String,​java.lang.Integer> getWordUnigramCounts​(java.lang.String text,
                                                                                                   int ngramSize)
      • splitSentenceIntoTokens

        public static final java.util.List<java.lang.String> splitSentenceIntoTokens​(java.lang.String sentence,
                                                                                     int ngramSize)
      • createWordBigrams

        public static final java.util.List<java.util.List<java.lang.String>> createWordBigrams​(java.util.List<java.lang.String> words)
      • createWordTrigrams

        public static final java.util.List<java.util.List<java.lang.String>> createWordTrigrams​(java.util.List<java.lang.String> words)
      • endsWithAbbreviation

        public static boolean endsWithAbbreviation​(java.lang.String string)
      • createCharacterVector

        private static final boolean[] createCharacterVector​(char... chars)
      • getCharacterBigramFrequencies

        public static final Matrix getCharacterBigramFrequencies​(java.lang.String s,
                                                                 char... validCharacters)
      • getCharacterTrigramFrequencies

        public static final Matrix getCharacterTrigramFrequencies​(java.lang.String s,
                                                                  char... validCharacters)
      • createBagOfWordsVector

        public static final Matrix createBagOfWordsVector​(java.lang.String string,
                                                          java.util.List<java.lang.String> dictionary)
      • convertSentenceToTextTokens

        public static java.util.Collection<TextToken> convertSentenceToTextTokens​(java.lang.String sentence)
      • convertToTextBlockToSentences

        public static java.util.Collection<TextSentence> convertToTextBlockToSentences​(java.lang.String text)
      • splitTextIntoSentences

        public static java.util.List<java.lang.String> splitTextIntoSentences​(java.lang.String text)
      • stringToVector

        public static Matrix stringToVector​(java.lang.String string)
      • stringToVector

        public static Matrix stringToVector​(java.lang.String string,
                                            int size)