com.khala.extractor.HTMLUtil Maven / Gradle / Ivy
package com.khala.extractor;
public class HTMLUtil {
public static String delHtmlTags(String htmlStr) {
//定义script的正则表达式,去除js可以防止注入
String scriptRegex = "少年中国说。红日初升,其道大光。河出伏流,一泻汪洋。
潜龙腾渊, 鳞爪飞扬。乳 虎啸 谷,百兽震惶。鹰隼试翼,风尘吸张。奇花初胎,矞矞皇皇。干将发硎,有作其芒。天戴其苍,地履其黄。纵有千古,横有"
+ "八荒。前途似海,来日方长。美哉我少年中国,与天不老!
壮哉我中国少年,与国无疆!
";
System.out.println(getTextFromHtml(htmlStr));
}
}