All Downloads are FREE. Search and download functionalities are using the official Maven repository.

be.bagofwords.text.HTMLEntities Maven / Gradle / Ivy

package be.bagofwords.text;

import java.util.HashMap;
import java.util.regex.Pattern;

public class HTMLEntities {

    public static final Pattern htmlEntityPattern = Pattern.compile("&[^&;]{2,8};");

    public static final HashMap entityMapping;
    public static final HashMap inverseEntityMapping;

    static {
        HashMap tmpmap = new HashMap<>();
        tmpmap.put(""", (int) '"');
        tmpmap.put("<", (int) '<');
        tmpmap.put(">", (int) '>');
        tmpmap.put("Á", 193);
        tmpmap.put("á", 225);
        tmpmap.put("Â", 194);
        tmpmap.put("â", 226);
        tmpmap.put("´", 180);
        tmpmap.put("Æ", 198);
        tmpmap.put("æ", 230);
        tmpmap.put("À", 192);
        tmpmap.put("à", 224);
        tmpmap.put("ℵ", 8501);
        tmpmap.put("Α", 913);
        tmpmap.put("α", 945);
        tmpmap.put("&", 38);
        tmpmap.put("∧", 8743);
        tmpmap.put("∠", 8736);
        tmpmap.put("Å", 197);
        tmpmap.put("å", 229);
        tmpmap.put("≈", 8776);
        tmpmap.put("Ã", 195);
        tmpmap.put("ã", 227);
        tmpmap.put("Ä", 196);
        tmpmap.put("ä", 228);
        tmpmap.put("„", 8222);
        tmpmap.put("Β", 914);
        tmpmap.put("β", 946);
        tmpmap.put("¦", 166);
        tmpmap.put("•", 8226);
        tmpmap.put("∩", 8745);
        tmpmap.put("Ç", 199);
        tmpmap.put("ç", 231);
        tmpmap.put("¸", 184);
        tmpmap.put("¢", 162);
        tmpmap.put("Χ", 935);
        tmpmap.put("χ", 967);
        tmpmap.put("ˆ", 710);
        tmpmap.put("♣", 9827);
        tmpmap.put("≅", 8773);
        tmpmap.put("©", 169);
        tmpmap.put("↵", 8629);
        tmpmap.put("∪", 8746);
        tmpmap.put("¤", 164);
        tmpmap.put("†", 8224);
        tmpmap.put("‡", 8225);
        tmpmap.put("↓", 8595);
        tmpmap.put("⇓", 8659);
        tmpmap.put("°", 176);
        tmpmap.put("Δ", 916);
        tmpmap.put("δ", 948);
        tmpmap.put("♦", 9830);
        tmpmap.put("÷", 247);
        tmpmap.put("É", 201);
        tmpmap.put("é", 233);
        tmpmap.put("Ê", 202);
        tmpmap.put("ê", 234);
        tmpmap.put("È", 200);
        tmpmap.put("è", 232);
        tmpmap.put("∅", 8709);
        tmpmap.put(" ", 8195);
        tmpmap.put(" ", 8194);
        tmpmap.put("Ε", 917);
        tmpmap.put("ε", 949);
        tmpmap.put("≡", 8801);
        tmpmap.put("Η", 919);
        tmpmap.put("η", 951);
        tmpmap.put("Ð", 208);
        tmpmap.put("ð", 240);
        tmpmap.put("Ë", 203);
        tmpmap.put("ë", 235);
        tmpmap.put("€", 8364);
        tmpmap.put("∃", 8707);
        tmpmap.put("ƒ", 402);
        tmpmap.put("∀", 8704);
        tmpmap.put("½", 189);
        tmpmap.put("¼", 188);
        tmpmap.put("¾", 190);
        tmpmap.put("⁄", 8260);
        tmpmap.put("Γ", 915);
        tmpmap.put("γ", 947);
        tmpmap.put("≥", 8805);
        tmpmap.put("↔", 8596);
        tmpmap.put("⇔", 8660);
        tmpmap.put("♥", 9829);
        tmpmap.put("…", 8230);
        tmpmap.put("Í", 205);
        tmpmap.put("í", 237);
        tmpmap.put("Î", 206);
        tmpmap.put("î", 238);
        tmpmap.put("¡", 161);
        tmpmap.put("Ì", 204);
        tmpmap.put("ì", 236);
        tmpmap.put("ℑ", 8465);
        tmpmap.put("∞", 8734);
        tmpmap.put("∫", 8747);
        tmpmap.put("Ι", 921);
        tmpmap.put("ι", 953);
        tmpmap.put("¿", 191);
        tmpmap.put("∈", 8712);
        tmpmap.put("Ï", 207);
        tmpmap.put("ï", 239);
        tmpmap.put("Κ", 922);
        tmpmap.put("κ", 954);
        tmpmap.put("Λ", 923);
        tmpmap.put("λ", 955);
        tmpmap.put("⟨", 9001);
        tmpmap.put("«", 171);
        tmpmap.put("←", 8592);
        tmpmap.put("⇐", 8656);
        tmpmap.put("⌈", 8968);
        tmpmap.put("“", 8220);
        tmpmap.put("≤", 8804);
        tmpmap.put("⌊", 8970);
        tmpmap.put("∗", 8727);
        tmpmap.put("◊", 9674);
        tmpmap.put("‎", 8206);
        tmpmap.put("‹", 8249);
        tmpmap.put("‘", 8216);
        tmpmap.put("¯", 175);
        tmpmap.put("—", 8212);
        tmpmap.put("µ", 181);
        tmpmap.put("·", 183);
        tmpmap.put("−", 8722);
        tmpmap.put("Μ", 924);
        tmpmap.put("μ", 956);
        tmpmap.put("∇", 8711);
        tmpmap.put(" ", 160);
        tmpmap.put("–", 8211);
        tmpmap.put("≠", 8800);
        tmpmap.put("∋", 8715);
        tmpmap.put("¬", 172);
        tmpmap.put("∉", 8713);
        tmpmap.put("⊄", 8836);
        tmpmap.put("Ñ", 209);
        tmpmap.put("ñ", 241);
        tmpmap.put("Ν", 925);
        tmpmap.put("ν", 957);
        tmpmap.put("Ó", 211);
        tmpmap.put("ó", 243);
        tmpmap.put("Ô", 212);
        tmpmap.put("ô", 244);
        tmpmap.put("Œ", 338);
        tmpmap.put("œ", 339);
        tmpmap.put("Ò", 210);
        tmpmap.put("ò", 242);
        tmpmap.put("‾", 8254);
        tmpmap.put("Ω", 937);
        tmpmap.put("ω", 969);
        tmpmap.put("Ο", 927);
        tmpmap.put("ο", 959);
        tmpmap.put("⊕", 8853);
        tmpmap.put("∨", 8744);
        tmpmap.put("ª", 170);
        tmpmap.put("º", 186);
        tmpmap.put("Ø", 216);
        tmpmap.put("ø", 248);
        tmpmap.put("Õ", 213);
        tmpmap.put("õ", 245);
        tmpmap.put("⊗", 8855);
        tmpmap.put("Ö", 214);
        tmpmap.put("ö", 246);
        tmpmap.put("¶", 182);
        tmpmap.put("∂", 8706);
        tmpmap.put("‰", 8240);
        tmpmap.put("⊥", 8869);
        tmpmap.put("Φ", 934);
        tmpmap.put("φ", 966);
        tmpmap.put("Π", 928);
        tmpmap.put("π", 960);
        tmpmap.put("ϖ", 982);
        tmpmap.put("±", 177);
        tmpmap.put("£", 163);
        tmpmap.put("′", 8242);
        tmpmap.put("″", 8243);
        tmpmap.put("∏", 8719);
        tmpmap.put("∝", 8733);
        tmpmap.put("Ψ", 936);
        tmpmap.put("ψ", 968);
        tmpmap.put("√", 8730);
        tmpmap.put("⟩", 9002);
        tmpmap.put("»", 187);
        tmpmap.put("→", 8594);
        tmpmap.put("⇒", 8658);
        tmpmap.put("⌉", 8969);
        tmpmap.put("”", 8221);
        tmpmap.put("ℜ", 8476);
        tmpmap.put("®", 174);
        tmpmap.put("⌋", 8971);
        tmpmap.put("Ρ", 929);
        tmpmap.put("ρ", 961);
        tmpmap.put("‏", 8207);
        tmpmap.put("›", 8250);
        tmpmap.put("’", 8217);
        tmpmap.put("‚", 8218);
        tmpmap.put("Š", 352);
        tmpmap.put("š", 353);
        tmpmap.put("⋅", 8901);
        tmpmap.put("§", 167);
        tmpmap.put("­", 173);
        tmpmap.put("Σ", 931);
        tmpmap.put("σ", 963);
        tmpmap.put("ς", 962);
        tmpmap.put("∼", 8764);
        tmpmap.put("♠", 9824);
        tmpmap.put("⊂", 8834);
        tmpmap.put("⊆", 8838);
        tmpmap.put("∑", 8721);
        tmpmap.put("¹", 185);
        tmpmap.put("²", 178);
        tmpmap.put("³", 179);
        tmpmap.put("⊃", 8835);
        tmpmap.put("⊇", 8839);
        tmpmap.put("ß", 223);
        tmpmap.put("Τ", 932);
        tmpmap.put("τ", 964);
        tmpmap.put("∴", 8756);
        tmpmap.put("Θ", 920);
        tmpmap.put("θ", 952);
        tmpmap.put("ϑ", 977);
        tmpmap.put(" ", 8201);
        tmpmap.put("Þ", 222);
        tmpmap.put("þ", 254);
        tmpmap.put("˜", 732);
        tmpmap.put("×", 215);
        tmpmap.put("™", 8482);
        tmpmap.put("Ú", 218);
        tmpmap.put("ú", 250);
        tmpmap.put("↑", 8593);
        tmpmap.put("⇑", 8657);
        tmpmap.put("Û", 219);
        tmpmap.put("û", 251);
        tmpmap.put("Ù", 217);
        tmpmap.put("ù", 249);
        tmpmap.put("¨", 168);
        tmpmap.put("ϒ", 978);
        tmpmap.put("Υ", 933);
        tmpmap.put("υ", 965);
        tmpmap.put("Ü", 220);
        tmpmap.put("ü", 252);
        tmpmap.put("℘", 8472);
        tmpmap.put("Ξ", 926);
        tmpmap.put("ξ", 958);
        tmpmap.put("Ý", 221);
        tmpmap.put("ý", 253);
        tmpmap.put("¥", 165);
        tmpmap.put("ÿ", 255);
        tmpmap.put("Ÿ", 376);
        tmpmap.put("Ζ", 918);
        tmpmap.put("ζ", 950);
        tmpmap.put("‍", 8205);
        tmpmap.put("‌", 8204);
        entityMapping = new HashMap<>();
        inverseEntityMapping = new HashMap<>();
        for (String key : tmpmap.keySet()) {
            int character = tmpmap.get(key);
            entityMapping.put(key, (char) character);
            inverseEntityMapping.put((char) character, key);
        }
    }
}




© 2015 - 2025 Weber Informatics LLC | Privacy Policy