
be.bagofwords.text.HTMLEntities Maven / Gradle / Ivy
package be.bagofwords.text;
import java.util.HashMap;
import java.util.regex.Pattern;
public class HTMLEntities {
public static final Pattern htmlEntityPattern = Pattern.compile("&[^&;]{2,8};");
public static final HashMap entityMapping;
public static final HashMap inverseEntityMapping;
static {
HashMap tmpmap = new HashMap<>();
tmpmap.put(""", (int) '"');
tmpmap.put("<", (int) '<');
tmpmap.put(">", (int) '>');
tmpmap.put("Á", 193);
tmpmap.put("á", 225);
tmpmap.put("Â", 194);
tmpmap.put("â", 226);
tmpmap.put("´", 180);
tmpmap.put("Æ", 198);
tmpmap.put("æ", 230);
tmpmap.put("À", 192);
tmpmap.put("à", 224);
tmpmap.put("ℵ", 8501);
tmpmap.put("Α", 913);
tmpmap.put("α", 945);
tmpmap.put("&", 38);
tmpmap.put("∧", 8743);
tmpmap.put("∠", 8736);
tmpmap.put("Å", 197);
tmpmap.put("å", 229);
tmpmap.put("≈", 8776);
tmpmap.put("Ã", 195);
tmpmap.put("ã", 227);
tmpmap.put("Ä", 196);
tmpmap.put("ä", 228);
tmpmap.put("„", 8222);
tmpmap.put("Β", 914);
tmpmap.put("β", 946);
tmpmap.put("¦", 166);
tmpmap.put("•", 8226);
tmpmap.put("∩", 8745);
tmpmap.put("Ç", 199);
tmpmap.put("ç", 231);
tmpmap.put("¸", 184);
tmpmap.put("¢", 162);
tmpmap.put("Χ", 935);
tmpmap.put("χ", 967);
tmpmap.put("ˆ", 710);
tmpmap.put("♣", 9827);
tmpmap.put("≅", 8773);
tmpmap.put("©", 169);
tmpmap.put("↵", 8629);
tmpmap.put("∪", 8746);
tmpmap.put("¤", 164);
tmpmap.put("†", 8224);
tmpmap.put("‡", 8225);
tmpmap.put("↓", 8595);
tmpmap.put("⇓", 8659);
tmpmap.put("°", 176);
tmpmap.put("Δ", 916);
tmpmap.put("δ", 948);
tmpmap.put("♦", 9830);
tmpmap.put("÷", 247);
tmpmap.put("É", 201);
tmpmap.put("é", 233);
tmpmap.put("Ê", 202);
tmpmap.put("ê", 234);
tmpmap.put("È", 200);
tmpmap.put("è", 232);
tmpmap.put("∅", 8709);
tmpmap.put(" ", 8195);
tmpmap.put(" ", 8194);
tmpmap.put("Ε", 917);
tmpmap.put("ε", 949);
tmpmap.put("≡", 8801);
tmpmap.put("Η", 919);
tmpmap.put("η", 951);
tmpmap.put("Ð", 208);
tmpmap.put("ð", 240);
tmpmap.put("Ë", 203);
tmpmap.put("ë", 235);
tmpmap.put("€", 8364);
tmpmap.put("∃", 8707);
tmpmap.put("ƒ", 402);
tmpmap.put("∀", 8704);
tmpmap.put("½", 189);
tmpmap.put("¼", 188);
tmpmap.put("¾", 190);
tmpmap.put("⁄", 8260);
tmpmap.put("Γ", 915);
tmpmap.put("γ", 947);
tmpmap.put("≥", 8805);
tmpmap.put("↔", 8596);
tmpmap.put("⇔", 8660);
tmpmap.put("♥", 9829);
tmpmap.put("…", 8230);
tmpmap.put("Í", 205);
tmpmap.put("í", 237);
tmpmap.put("Î", 206);
tmpmap.put("î", 238);
tmpmap.put("¡", 161);
tmpmap.put("Ì", 204);
tmpmap.put("ì", 236);
tmpmap.put("ℑ", 8465);
tmpmap.put("∞", 8734);
tmpmap.put("∫", 8747);
tmpmap.put("Ι", 921);
tmpmap.put("ι", 953);
tmpmap.put("¿", 191);
tmpmap.put("∈", 8712);
tmpmap.put("Ï", 207);
tmpmap.put("ï", 239);
tmpmap.put("Κ", 922);
tmpmap.put("κ", 954);
tmpmap.put("Λ", 923);
tmpmap.put("λ", 955);
tmpmap.put("〈", 9001);
tmpmap.put("«", 171);
tmpmap.put("←", 8592);
tmpmap.put("⇐", 8656);
tmpmap.put("⌈", 8968);
tmpmap.put("“", 8220);
tmpmap.put("≤", 8804);
tmpmap.put("⌊", 8970);
tmpmap.put("∗", 8727);
tmpmap.put("◊", 9674);
tmpmap.put("", 8206);
tmpmap.put("‹", 8249);
tmpmap.put("‘", 8216);
tmpmap.put("¯", 175);
tmpmap.put("—", 8212);
tmpmap.put("µ", 181);
tmpmap.put("·", 183);
tmpmap.put("−", 8722);
tmpmap.put("Μ", 924);
tmpmap.put("μ", 956);
tmpmap.put("∇", 8711);
tmpmap.put(" ", 160);
tmpmap.put("–", 8211);
tmpmap.put("≠", 8800);
tmpmap.put("∋", 8715);
tmpmap.put("¬", 172);
tmpmap.put("∉", 8713);
tmpmap.put("⊄", 8836);
tmpmap.put("Ñ", 209);
tmpmap.put("ñ", 241);
tmpmap.put("Ν", 925);
tmpmap.put("ν", 957);
tmpmap.put("Ó", 211);
tmpmap.put("ó", 243);
tmpmap.put("Ô", 212);
tmpmap.put("ô", 244);
tmpmap.put("Œ", 338);
tmpmap.put("œ", 339);
tmpmap.put("Ò", 210);
tmpmap.put("ò", 242);
tmpmap.put("‾", 8254);
tmpmap.put("Ω", 937);
tmpmap.put("ω", 969);
tmpmap.put("Ο", 927);
tmpmap.put("ο", 959);
tmpmap.put("⊕", 8853);
tmpmap.put("∨", 8744);
tmpmap.put("ª", 170);
tmpmap.put("º", 186);
tmpmap.put("Ø", 216);
tmpmap.put("ø", 248);
tmpmap.put("Õ", 213);
tmpmap.put("õ", 245);
tmpmap.put("⊗", 8855);
tmpmap.put("Ö", 214);
tmpmap.put("ö", 246);
tmpmap.put("¶", 182);
tmpmap.put("∂", 8706);
tmpmap.put("‰", 8240);
tmpmap.put("⊥", 8869);
tmpmap.put("Φ", 934);
tmpmap.put("φ", 966);
tmpmap.put("Π", 928);
tmpmap.put("π", 960);
tmpmap.put("ϖ", 982);
tmpmap.put("±", 177);
tmpmap.put("£", 163);
tmpmap.put("′", 8242);
tmpmap.put("″", 8243);
tmpmap.put("∏", 8719);
tmpmap.put("∝", 8733);
tmpmap.put("Ψ", 936);
tmpmap.put("ψ", 968);
tmpmap.put("√", 8730);
tmpmap.put("〉", 9002);
tmpmap.put("»", 187);
tmpmap.put("→", 8594);
tmpmap.put("⇒", 8658);
tmpmap.put("⌉", 8969);
tmpmap.put("”", 8221);
tmpmap.put("ℜ", 8476);
tmpmap.put("®", 174);
tmpmap.put("⌋", 8971);
tmpmap.put("Ρ", 929);
tmpmap.put("ρ", 961);
tmpmap.put("", 8207);
tmpmap.put("›", 8250);
tmpmap.put("’", 8217);
tmpmap.put("‚", 8218);
tmpmap.put("Š", 352);
tmpmap.put("š", 353);
tmpmap.put("⋅", 8901);
tmpmap.put("§", 167);
tmpmap.put("", 173);
tmpmap.put("Σ", 931);
tmpmap.put("σ", 963);
tmpmap.put("ς", 962);
tmpmap.put("∼", 8764);
tmpmap.put("♠", 9824);
tmpmap.put("⊂", 8834);
tmpmap.put("⊆", 8838);
tmpmap.put("∑", 8721);
tmpmap.put("¹", 185);
tmpmap.put("²", 178);
tmpmap.put("³", 179);
tmpmap.put("⊃", 8835);
tmpmap.put("⊇", 8839);
tmpmap.put("ß", 223);
tmpmap.put("Τ", 932);
tmpmap.put("τ", 964);
tmpmap.put("∴", 8756);
tmpmap.put("Θ", 920);
tmpmap.put("θ", 952);
tmpmap.put("ϑ", 977);
tmpmap.put(" ", 8201);
tmpmap.put("Þ", 222);
tmpmap.put("þ", 254);
tmpmap.put("˜", 732);
tmpmap.put("×", 215);
tmpmap.put("™", 8482);
tmpmap.put("Ú", 218);
tmpmap.put("ú", 250);
tmpmap.put("↑", 8593);
tmpmap.put("⇑", 8657);
tmpmap.put("Û", 219);
tmpmap.put("û", 251);
tmpmap.put("Ù", 217);
tmpmap.put("ù", 249);
tmpmap.put("¨", 168);
tmpmap.put("ϒ", 978);
tmpmap.put("Υ", 933);
tmpmap.put("υ", 965);
tmpmap.put("Ü", 220);
tmpmap.put("ü", 252);
tmpmap.put("℘", 8472);
tmpmap.put("Ξ", 926);
tmpmap.put("ξ", 958);
tmpmap.put("Ý", 221);
tmpmap.put("ý", 253);
tmpmap.put("¥", 165);
tmpmap.put("ÿ", 255);
tmpmap.put("Ÿ", 376);
tmpmap.put("Ζ", 918);
tmpmap.put("ζ", 950);
tmpmap.put("", 8205);
tmpmap.put("", 8204);
entityMapping = new HashMap<>();
inverseEntityMapping = new HashMap<>();
for (String key : tmpmap.keySet()) {
int character = tmpmap.get(key);
entityMapping.put(key, (char) character);
inverseEntityMapping.put((char) character, key);
}
}
}
© 2015 - 2025 Weber Informatics LLC | Privacy Policy