All Downloads are FREE. Search and download functionalities are using the official Maven repository.

org.dizitart.no2.fulltext.languages.Chinese Maven / Gradle / Ivy

There is a newer version: 4.3.0
Show newest version
/*
 *
 * Copyright 2017-2018 Nitrite author or authors.
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *        http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 *
 */

package org.dizitart.no2.fulltext.languages;

import org.dizitart.no2.fulltext.Language;

import java.util.Arrays;
import java.util.HashSet;
import java.util.Set;

/**
 * Chinese stop words
 *
 * @since 2.1.0
 * @author Anindya Chatterjee
 */
public class Chinese implements Language {
    @Override
    public Set stopWords() {
        return new HashSet<>(Arrays.asList(
                "、",
                "。",
                "〈",
                "〉",
                "《",
                "》",
                "一",
                "一些",
                "一何",
                "一切",
                "一则",
                "一方面",
                "一旦",
                "一来",
                "一样",
                "一般",
                "一转眼",
                "七",
                "万一",
                "三",
                "上",
                "上下",
                "下",
                "不",
                "不仅",
                "不但",
                "不光",
                "不单",
                "不只",
                "不外乎",
                "不如",
                "不妨",
                "不尽",
                "不尽然",
                "不得",
                "不怕",
                "不惟",
                "不成",
                "不拘",
                "不料",
                "不是",
                "不比",
                "不然",
                "不特",
                "不独",
                "不管",
                "不至于",
                "不若",
                "不论",
                "不过",
                "不问",
                "与",
                "与其",
                "与其说",
                "与否",
                "与此同时",
                "且",
                "且不说",
                "且说",
                "两者",
                "个",
                "个别",
                "中",
                "临",
                "为",
                "为了",
                "为什么",
                "为何",
                "为止",
                "为此",
                "为着",
                "乃",
                "乃至",
                "乃至于",
                "么",
                "之",
                "之一",
                "之所以",
                "之类",
                "乌乎",
                "乎",
                "乘",
                "九",
                "也",
                "也好",
                "也罢",
                "了",
                "二",
                "二来",
                "于",
                "于是",
                "于是乎",
                "云云",
                "云尔",
                "五",
                "些",
                "亦",
                "人",
                "人们",
                "人家",
                "什",
                "什么",
                "什么样",
                "今",
                "介于",
                "仍",
                "仍旧",
                "从",
                "从此",
                "从而",
                "他",
                "他人",
                "他们",
                "他们们",
                "以",
                "以上",
                "以为",
                "以便",
                "以免",
                "以及",
                "以故",
                "以期",
                "以来",
                "以至",
                "以至于",
                "以致",
                "们",
                "任",
                "任何",
                "任凭",
                "会",
                "似的",
                "但",
                "但凡",
                "但是",
                "何",
                "何以",
                "何况",
                "何处",
                "何时",
                "余外",
                "作为",
                "你",
                "你们",
                "使",
                "使得",
                "例如",
                "依",
                "依据",
                "依照",
                "便于",
                "俺",
                "俺们",
                "倘",
                "倘使",
                "倘或",
                "倘然",
                "倘若",
                "借",
                "借傥然",
                "假使",
                "假如",
                "假若",
                "做",
                "像",
                "儿",
                "先不先",
                "光是",
                "全体",
                "全部",
                "八",
                "六",
                "兮",
                "共",
                "关于",
                "关于具体地说",
                "其",
                "其一",
                "其中",
                "其二",
                "其他",
                "其余",
                "其它",
                "其次",
                "具体地说",
                "具体说来",
                "兼之",
                "内",
                "再",
                "再其次",
                "再则",
                "再有",
                "再者",
                "再者说",
                "再说",
                "冒",
                "冲",
                "况且",
                "几",
                "几时",
                "凡",
                "凡是",
                "凭",
                "凭借",
                "出于",
                "出来",
                "分",
                "分别",
                "则",
                "则甚",
                "别",
                "别人",
                "别处",
                "别是",
                "别的",
                "别管",
                "别说",
                "到",
                "前后",
                "前此",
                "前者",
                "加之",
                "加以",
                "即",
                "即令",
                "即使",
                "即便",
                "即如",
                "即或",
                "即若",
                "却",
                "去",
                "又",
                "又及",
                "及",
                "及其",
                "及至",
                "反之",
                "反而",
                "反过来",
                "反过来说",
                "受到",
                "另",
                "另一方面",
                "另外",
                "另悉",
                "只",
                "只当",
                "只怕",
                "只是",
                "只有",
                "只消",
                "只要",
                "只限",
                "叫",
                "叮咚",
                "可",
                "可以",
                "可是",
                "可见",
                "各",
                "各个",
                "各位",
                "各种",
                "各自",
                "同",
                "同时",
                "后",
                "后者",
                "向",
                "向使",
                "向着",
                "吓",
                "吗",
                "否则",
                "吧",
                "吧哒",
                "含",
                "吱",
                "呀",
                "呃",
                "呕",
                "呗",
                "呜",
                "呜呼",
                "呢",
                "呵",
                "呵呵",
                "呸",
                "呼哧",
                "咋",
                "和",
                "咚",
                "咦",
                "咧",
                "咱",
                "咱们",
                "咳",
                "哇",
                "哈",
                "哈哈",
                "哉",
                "哎",
                "哎呀",
                "哎哟",
                "哗",
                "哟",
                "哦",
                "哩",
                "哪",
                "哪个",
                "哪些",
                "哪儿",
                "哪天",
                "哪年",
                "哪怕",
                "哪样",
                "哪边",
                "哪里",
                "哼",
                "哼唷",
                "唉",
                "唯有",
                "啊",
                "啐",
                "啥",
                "啦",
                "啪达",
                "啷当",
                "喂",
                "喏",
                "喔唷",
                "喽",
                "嗡",
                "嗡嗡",
                "嗬",
                "嗯",
                "嗳",
                "嘎",
                "嘎登",
                "嘘",
                "嘛",
                "嘻",
                "嘿",
                "嘿嘿",
                "四",
                "因",
                "因为",
                "因了",
                "因此",
                "因着",
                "因而",
                "固然",
                "在",
                "在下",
                "在于",
                "地",
                "基于",
                "处在",
                "多",
                "多么",
                "多少",
                "大",
                "大家",
                "她",
                "她们",
                "好",
                "如",
                "如上",
                "如上所述",
                "如下",
                "如何",
                "如其",
                "如同",
                "如是",
                "如果",
                "如此",
                "如若",
                "始而",
                "孰料",
                "孰知",
                "宁",
                "宁可",
                "宁愿",
                "宁肯",
                "它",
                "它们",
                "对",
                "对于",
                "对待",
                "对方",
                "对比",
                "将",
                "小",
                "尔",
                "尔后",
                "尔尔",
                "尚且",
                "就",
                "就是",
                "就是了",
                "就是说",
                "就算",
                "就要",
                "尽",
                "尽管",
                "尽管如此",
                "岂但",
                "己",
                "已",
                "已矣",
                "巴",
                "巴巴",
                "年",
                "并",
                "并且",
                "庶乎",
                "庶几",
                "开外",
                "开始",
                "归",
                "归齐",
                "当",
                "当地",
                "当然",
                "当着",
                "彼",
                "彼时",
                "彼此",
                "往",
                "待",
                "很",
                "得",
                "得了",
                "怎",
                "怎么",
                "怎么办",
                "怎么样",
                "怎奈",
                "怎样",
                "总之",
                "总的来看",
                "总的来说",
                "总的说来",
                "总而言之",
                "恰恰相反",
                "您",
                "惟其",
                "慢说",
                "我",
                "我们",
                "或",
                "或则",
                "或是",
                "或曰",
                "或者",
                "截至",
                "所",
                "所以",
                "所在",
                "所幸",
                "所有",
                "才",
                "才能",
                "打",
                "打从",
                "把",
                "抑或",
                "拿",
                "按",
                "按照",
                "换句话说",
                "换言之",
                "据",
                "据此",
                "接着",
                "故",
                "故此",
                "故而",
                "旁人",
                "无",
                "无宁",
                "无论",
                "既",
                "既往",
                "既是",
                "既然",
                "日",
                "时",
                "时候",
                "是",
                "是以",
                "是的",
                "更",
                "曾",
                "替",
                "替代",
                "最",
                "月",
                "有",
                "有些",
                "有关",
                "有及",
                "有时",
                "有的",
                "望",
                "朝",
                "朝着",
                "本",
                "本人",
                "本地",
                "本着",
                "本身",
                "来",
                "来着",
                "来自",
                "来说",
                "极了",
                "果然",
                "果真",
                "某",
                "某个",
                "某些",
                "某某",
                "根据",
                "欤",
                "正值",
                "正如",
                "正巧",
                "正是",
                "此",
                "此地",
                "此处",
                "此外",
                "此时",
                "此次",
                "此间",
                "毋宁",
                "每",
                "每当",
                "比",
                "比及",
                "比如",
                "比方",
                "没奈何",
                "沿",
                "沿着",
                "漫说",
                "焉",
                "然则",
                "然后",
                "然而",
                "照",
                "照着",
                "犹且",
                "犹自",
                "甚且",
                "甚么",
                "甚或",
                "甚而",
                "甚至",
                "甚至于",
                "用",
                "用来",
                "由",
                "由于",
                "由是",
                "由此",
                "由此可见",
                "的",
                "的确",
                "的话",
                "直到",
                "相对而言",
                "省得",
                "看",
                "眨眼",
                "着",
                "着呢",
                "矣",
                "矣乎",
                "矣哉",
                "离",
                "秒",
                "竟而",
                "第",
                "等",
                "等到",
                "等等",
                "简言之",
                "管",
                "类如",
                "紧接着",
                "纵",
                "纵令",
                "纵使",
                "纵然",
                "经",
                "经过",
                "结果",
                "给",
                "继之",
                "继后",
                "继而",
                "综上所述",
                "罢了",
                "者",
                "而",
                "而且",
                "而况",
                "而后",
                "而外",
                "而已",
                "而是",
                "而言",
                "能",
                "能否",
                "腾",
                "自",
                "自个儿",
                "自从",
                "自各儿",
                "自后",
                "自家",
                "自己",
                "自打",
                "自身",
                "至",
                "至于",
                "至今",
                "至若",
                "致",
                "般的",
                "若",
                "若夫",
                "若是",
                "若果",
                "若非",
                "莫不然",
                "莫如",
                "莫若",
                "虽",
                "虽则",
                "虽然",
                "虽说",
                "被",
                "要",
                "要不",
                "要不是",
                "要不然",
                "要么",
                "要是",
                "譬喻",
                "譬如",
                "让",
                "许多",
                "论",
                "设使",
                "设或",
                "设若",
                "诚如",
                "诚然",
                "该",
                "说",
                "说来",
                "请",
                "诸",
                "诸位",
                "诸如",
                "谁",
                "谁人",
                "谁料",
                "谁知",
                "贼死",
                "赖以",
                "赶",
                "起",
                "起见",
                "趁",
                "趁着",
                "越是",
                "距",
                "跟",
                "较",
                "较之",
                "边",
                "过",
                "还",
                "还是",
                "还有",
                "还要",
                "这",
                "这一来",
                "这个",
                "这么",
                "这么些",
                "这么样",
                "这么点儿",
                "这些",
                "这会儿",
                "这儿",
                "这就是说",
                "这时",
                "这样",
                "这次",
                "这般",
                "这边",
                "这里",
                "进而",
                "连",
                "连同",
                "逐步",
                "通过",
                "遵循",
                "遵照",
                "那",
                "那个",
                "那么",
                "那么些",
                "那么样",
                "那些",
                "那会儿",
                "那儿",
                "那时",
                "那样",
                "那般",
                "那边",
                "那里",
                "都",
                "鄙人",
                "鉴于",
                "针对",
                "阿",
                "除",
                "除了",
                "除外",
                "除开",
                "除此之外",
                "除非",
                "随",
                "随后",
                "随时",
                "随着",
                "难道说",
                "零",
                "非",
                "非但",
                "非徒",
                "非特",
                "非独",
                "靠",
                "顺",
                "顺着",
                "首先",
                "︿",
                "!",
                "#",
                "$",
                "%",
                "&",
                "(",
                ")",
                "*",
                "+",
                ",",
                "0",
                "1",
                "2",
                "3",
                "4",
                "5",
                "6",
                "7",
                "8",
                "9",
                ":",
                ";",
                "<",
                ">",
                "?",
                "@",
                "[",
                "]",
                "{",
                "|",
                "}",
                "~",
                "¥"
        ));
    }
}




© 2015 - 2024 Weber Informatics LLC | Privacy Policy