All Downloads are FREE. Search and download functionalities are using the official Maven repository.

org.apache.lucene.analysis.pt.portuguese.rslp Maven / Gradle / Ivy

There is a newer version: 8.11.4
Show newest version
#  Steps file for the RSLP stemmer.

# Step 1: Plural Reduction
{  "Plural", 3, 1, {"s"},
  # bons -> bom 
  {"ns",1,"m"},
  # balões -> balão
  {"ões",3,"ão"},
  # capitães -> capitão
  {"ães",1,"ão",{"mães"}},
  # normais -> normal
  {"ais",1,"al",{"cais","mais"}},
  # papéis -> papel
  {"éis",2,"el"},
  # amáveis -> amável
  {"eis",2,"el"},
  # lençóis -> lençol
  {"óis",2,"ol"},
  # barris -> barril
  {"is",2,"il",{"lápis","cais","mais","crúcis","biquínis","pois","depois","dois","leis"}},
  # males -> mal
  {"les",3,"l"},
  # mares -> mar
  {"res",3,"r", {"árvores"}},
  # casas -> casa
  {"s",2,"",{"aliás","pires","lápis","cais","mais","mas","menos","férias","fezes","pêsames","crúcis","gás","atrás","moisés","através","convés","ês","país","após","ambas","ambos","messias", "depois"}}};

# Step 2: Adverb Reduction
{  "Adverb", 0, 0, {},
  # felizmente -> feliz
  {"mente",4,"",{"experimente"}}};
  
# Step 3: Feminine Reduction
{  "Feminine", 3, 1, {"a","ã"},
  # chefona -> chefão
  {"ona",3,"ão",{"abandona","lona","iona","cortisona","monótona","maratona","acetona","detona","carona"}},
  # vilã -> vilão
  {"ã",2,"ão",{"amanhã","arapuã","fã","divã"}},
  # professora -> professor
  {"ora",3,"or"},
  # americana -> americano
  {"na",4,"no",{"carona","abandona","lona","iona","cortisona","monótona","maratona","acetona","detona","guiana","campana","grana","caravana","banana","paisana"}},
  # sozinha -> sozinho
  {"inha",3,"inho",{"rainha","linha","minha"}},
  # inglesa -> inglês
  {"esa",3,"ês",{"mesa","obesa","princesa","turquesa","ilesa","pesa","presa"}},
  # famosa -> famoso
  {"osa",3,"oso",{"mucosa","prosa"}},
  # maníaca -> maníaco
  {"íaca",3,"íaco"},
  # prática -> prático
  {"ica",3,"ico",{"dica"}},
  # cansada -> cansado
  {"ada",2,"ado",{"pitada"}},
  # mantida -> mantido
  {"ida",3,"ido",{"vida","dúvida"}},
  {"ída",3,"ido",{"recaída","saída"}},
  # prima -> primo
  {"ima",3,"imo",{"vítima"}},
  # passiva -> passivo
  {"iva",3,"ivo",{"saliva","oliva"}},
  # primeira -> primeiro
  {"eira",3,"eiro",{"beira","cadeira","frigideira","bandeira","feira","capoeira","barreira","fronteira","besteira","poeira"}}};

# Step 4: Augmentative/Diminutive Reduction
{  "Augmentative", 0, 1, {},
  # cansadíssimo -> cansad
  {"díssimo",5},
  # amabilíssimo -> ama
  {"abilíssimo",5},
  # fortíssimo -> fort
  {"íssimo",3},
  {"ésimo",3},
  # chiquérrimo -> chiqu
  {"érrimo",4},
  # pezinho -> pe
  {"zinho",2},
  # maluquinho -> maluc
  {"quinho",4,"c"},
  # amiguinho -> amig
  {"uinho",4},
  # cansadinho -> cansad
  {"adinho",3},
  # carrinho -> carr
  {"inho",3,"",{"caminho","cominho"}},
  # grandalhão -> grand
  {"alhão",4},
  # dentuça -> dent
  {"uça",4},
  # ricaço -> ric
  {"aço",4,"",{"antebraço"}},
  {"aça",4},
  # casadão -> cans
  {"adão",4}, 
  {"idão",4},
  # corpázio -> corp
  {"ázio",3,"",{"topázio"}},
  # pratarraz -> prat
  {"arraz",4},
  {"zarrão",3},
  {"arrão",4},
  # bocarra -> boc
  {"arra",3},
  # calorzão -> calor
  {"zão",2,"",{"coalizão"}},
  # meninão -> menin
  {"ão",3,"",{"camarão","chimarrão","canção","coração","embrião","grotão","glutão","ficção","fogão","feição","furacão","gamão","lampião","leão","macacão","nação","órfão","orgão","patrão","portão","quinhão","rincão","tração","falcão","espião","mamão","folião","cordão","aptidão","campeão","colchão","limão","leilão","melão","barão","milhão","bilhão","fusão","cristão","ilusão","capitão","estação","senão"}}};

# Step 5: Noun Suffix Reduction
{  "Noun", 0, 0, {},
  # existencialista -> exist
  {"encialista",4},
  # minimalista -> minim
  {"alista",5},
  # contagem -> cont
  {"agem",3,"",{"coragem","chantagem","vantagem","carruagem"}},
  # gerenciamento -> gerenc
  {"iamento",4},
  # monitoramento -> monitor
  {"amento",3,"",{"firmamento","fundamento","departamento"}},
  # nascimento -> nasc
  {"imento",3},
  {"mento",6,"",{"firmamento","elemento","complemento","instrumento","departamento"}},
  # comercializado -> comerci
  {"alizado",4},
  # traumatizado -> traum
  {"atizado",4},
  {"tizado",4,"",{"alfabetizado"}},
  # alfabetizado -> alfabet
  {"izado",5,"",{"organizado","pulverizado"}},
  # associativo -> associ
  {"ativo",4,"",{"pejorativo","relativo"}},
  # contraceptivo -> contracep
  {"tivo",4,"",{"relativo"}},
  # esportivo -> esport
  {"ivo",4,"",{"passivo","possessivo","pejorativo","positivo"}},
  # abalado -> abal
  {"ado",2,"",{"grado"}},
  # impedido -> imped
  {"ido",3,"",{"cândido","consolido","rápido","decido","tímido","duvido","marido"}},
  # ralador -> ral
  {"ador",3},
  # entendedor -> entend
  {"edor",3},
  # cumpridor -> cumpr
  {"idor",4,"",{"ouvidor"}},
  {"dor",4,"",{"ouvidor"}},
  {"sor",4,"",{"assessor"}},
  {"atoria",5},
  {"tor",3,"",{"benfeitor","leitor","editor","pastor","produtor","promotor","consultor"}},
  {"or",2,"",{"motor","melhor","redor","rigor","sensor","tambor","tumor","assessor","benfeitor","pastor","terior","favor","autor"}},
  # comparabilidade -> compar
  {"abilidade",5},
  # abolicionista -> abol
  {"icionista",4},
  # intervencionista -> interven
  {"cionista",5},
  {"ionista",5},
  {"ionar",5},
  # profissional -> profiss
  {"ional",4},
  # referência -> refer
  {"ência",3},
  # repugnância -> repugn
  {"ância",4,"",{"ambulância"}},
  # abatedouro -> abat
  {"edouro",3},
  # fofoqueiro -> fofoc
  {"queiro",3,"c"},
  {"adeiro",4,"",{"desfiladeiro"}},
  # brasileiro -> brasil
  {"eiro",3,"",{"desfiladeiro","pioneiro","mosteiro"}},
  {"uoso",3},
  # gostoso -> gost
  {"oso",3,"",{"precioso"}},
  # comercializaç -> comerci
  {"alizaç",5},
  {"atizaç",5},
  {"tizaç",5},
  {"izaç",5,"",{"organizaç"}},
  # alegaç -> aleg
  {"aç",3,"",{"equaç","relaç"}},
  # aboliç -> abol
  {"iç",3,"",{"eleiç"}},
  # anedotário -> anedot
  {"ário",3,"",{"voluntário","salário","aniversário","diário","lionário","armário"}},
  {"atório",3},
  {"rio",5,"",{"voluntário","salário","aniversário","diário","compulsório","lionário","próprio","stério","armário"}},
  # ministério -> minist
  {"ério",6},
  # chinês -> chin
  {"ês",4},
  # beleza -> bel
  {"eza",3},
  # rigidez -> rigid
  {"ez",4},
  # parentesco -> parent
  {"esco",4},
  # ocupante -> ocup
  {"ante",2,"",{"gigante","elefante","adiante","possante","instante","restaurante"}},
  # bombástico -> bomb
  {"ástico",4,"",{"eclesiástico"}},
  {"alístico",3},
  {"áutico",4},
  {"êutico",4},
  {"tico",3,"",{"político","eclesiástico","diagnostico","prático","doméstico","diagnóstico","idêntico","alopático","artístico","autêntico","eclético","crítico","critico"}},
  # polêmico -> polêm
  {"ico",4,"",{"tico","público","explico"}},
  # produtividade -> produt
  {"ividade",5},
  # profundidade -> profund
  {"idade",4,"",{"autoridade","comunidade"}},
  # aposentadoria -> aposentad
  {"oria",4,"",{"categoria"}},
  # existencial -> exist
  {"encial",5},
  # artista -> art
  {"ista",4},
  {"auta",5},
  # maluquice -> maluc
  {"quice",4,"c"},
  # chatice -> chat
  {"ice",4,"",{"cúmplice"}},
  # demoníaco -> demon
  {"íaco",3},
  # decorrente -> decorr
  {"ente",4,"",{"freqüente","alimente","acrescente","permanente","oriente","aparente"}},
  {"ense",5},
  # criminal -> crim
  {"inal",3},
  # americano -> americ
  {"ano",4},
  # amável -> am
  {"ável",2,"",{"afável","razoável","potável","vulnerável"}},
  # combustível -> combust
  {"ível",3,"",{"possível"}},
  {"vel",5,"",{"possível","vulnerável","solúvel"}},
  {"bil",3,"vel"},
  # cobertura -> cobert
  {"ura",4,"",{"imatura","acupuntura","costura"}},
  {"ural",4},
  # consensual -> consens
  {"ual",3,"",{"bissexual","virtual","visual","pontual"}},
  # mundial -> mund
  {"ial",3},
  # experimental -> experiment
  {"al",4,"",{"afinal","animal","estatal","bissexual","desleal","fiscal","formal","pessoal","liberal","postal","virtual","visual","pontual","sideral","sucursal"}},
  {"alismo",4},
  {"ivismo",4},
  {"ismo",3,"",{"cinismo"}}};

# Step 6: Verb Suffix Reduction
{  "Verb", 0, 0, {}, 
  # cantaríamo -> cant
  {"aríamo",2},
  # cantássemo -> cant
  {"ássemo",2},
  # beberíamo -> beb
  {"eríamo",2},
  # bebêssemo -> beb
  {"êssemo",2},
  # partiríamo -> part
  {"iríamo",3},
  # partíssemo -> part
  {"íssemo",3},
  # cantáramo -> cant
  {"áramo",2},
  # cantárei -> cant
  {"árei",2},
  # cantaremo -> cant
  {"aremo",2},
  # cantariam -> cant
  {"ariam",2},
  # cantaríei -> cant
  {"aríei",2},
  # cantássei -> cant
  {"ássei",2},
  # cantassem -> cant
  {"assem",2},
  # cantávamo -> cant
  {"ávamo",2},
  # bebêramo -> beb
  {"êramo",3},
  # beberemo -> beb
  {"eremo",3},
  # beberiam -> beb
  {"eriam",3},
  # beberíei -> beb
  {"eríei",3},
  # bebêssei -> beb
  {"êssei",3},
  # bebessem -> beb
  {"essem",3},
  # partiríamo -> part
  {"íramo",3},
  # partiremo -> part
  {"iremo",3},
  # partiriam -> part
  {"iriam",3},
  # partiríei -> part
  {"iríei",3},
  # partíssei -> part
  {"íssei",3},
  # partissem -> part
  {"issem",3},
  # cantando -> cant
  {"ando",2},
  # bebendo -> beb
  {"endo",3},
  # partindo -> part
  {"indo",3},
  # propondo -> prop
  {"ondo",3},
  # cantaram -> cant
  {"aram",2},
  {"arão",2},
  # cantarde -> cant
  {"arde",2},
  # cantarei -> cant
  {"arei",2},
  # cantarem -> cant
  {"arem",2},
  # cantaria -> cant
  {"aria",2},
  # cantarmo -> cant
  {"armo",2},
  # cantasse -> cant
  {"asse",2},
  # cantaste -> cant
  {"aste",2},
  # cantavam -> cant
  {"avam",2,"",{"agravam"}},
  # cantávei -> cant
  {"ávei",2},
  # beberam -> beb
  {"eram",3},
  {"erão",3},
  # beberde -> beb
  {"erde",3},
  # beberei -> beb
  {"erei",3},
  # bebêrei -> beb
  {"êrei",3},
  # beberem -> beb
  {"erem",3},
  # beberia -> beb
  {"eria",3},
  # bebermo -> beb
  {"ermo",3},
  # bebesse -> beb
  {"esse",3},
  # bebeste -> beb
  {"este",3,"",{"faroeste","agreste"}},
  # bebíamo -> beb
  {"íamo",3},
  # partiram -> part
  {"iram",3},
  # concluíram -> conclu
  {"íram",3},
  {"irão",2},
  # partirde -> part
  {"irde",2},
  # partírei -> part
  {"irei",3,"",{"admirei"}},
  # partirem -> part
  {"irem",3,"",{"adquirem"}},
  # partiria -> part
  {"iria",3},
  # partirmo -> part
  {"irmo",3},
  # partisse -> part
  {"isse",3},
  # partiste -> part
  {"iste",4},
  {"iava",4,"",{"ampliava"}},
  # cantamo -> cant
  {"amo",2},
  {"iona",3},
  # cantara -> cant
  {"ara",2,"",{"arara","prepara"}},
  # cantará -> cant
  {"ará",2,"",{"alvará"}},
  # cantare -> cant
  {"are",2,"",{"prepare"}},
  # cantava -> cant
  {"ava",2,"",{"agrava"}},
  # cantemo -> cant
  {"emo",2},
  # bebera -> beb
  {"era",3,"",{"acelera","espera"}},
  # beberá -> beb
  {"erá",3},
  # bebere -> beb
  {"ere",3,"",{"espere"}},
  # bebiam -> beb
  {"iam",3,"",{"enfiam","ampliam","elogiam","ensaiam"}},
  # bebíei -> beb
  {"íei",3},
  # partimo -> part
  {"imo",3,"",{"reprimo","intimo","íntimo","nimo","queimo","ximo"}},
  # partira -> part
  {"ira",3,"",{"fronteira","sátira"}},
  {"ído",3},
  # partirá -> part
  {"irá",3},
  {"tizar",4,"",{"alfabetizar"}},
  {"izar",5,"",{"organizar"}},
  {"itar",5,"",{"acreditar","explicitar","estreitar"}},
  # partire -> part
  {"ire",3,"",{"adquire"}},
  # compomo -> comp
  {"omo",3},
  # cantai -> cant
  {"ai",2},
  # cantam -> cant
  {"am",2},
  # barbear -> barb
  {"ear",4,"",{"alardear","nuclear"}},
  # cantar -> cant
  {"ar",2,"",{"azar","bazaar","patamar"}},
  # cheguei -> cheg
  {"uei",3},
  {"uía",5,"u"},
  # cantei -> cant
  {"ei",3},
  {"guem",3,"g"},
  # cantem -> cant
  {"em",2,"",{"alem","virgem"}},
  # beber -> beb
  {"er",2,"",{"éter","pier"}},
  # bebeu -> beb
  {"eu",3,"",{"chapeu"}},
  # bebia -> beb
  {"ia",3,"",{"estória","fatia","acia","praia","elogia","mania","lábia","aprecia","polícia","arredia","cheia","ásia"}},
  # partir -> part
  {"ir",3,"",{"freir"}},
  # partiu -> part
  {"iu",3},
  {"eou",5},
  # chegou -> cheg
  {"ou",3},
  # bebi -> beb
  {"i",3}};

# Step 7: Vowel Removal 
{  "Vowel", 0, 0, {}, 
  {"bil",2,"vel"},
  {"gue",2,"g",{"gangue","jegue"}},
  {"á",3}, 
  {"ê",3,"",{"bebê"}},
  # menina -> menin
  {"a",3,"",{"ásia"}},
  # grande -> grand
  {"e",3},
  # menino -> menin
  {"o",3,"",{"ão"}}};




© 2015 - 2024 Weber Informatics LLC | Privacy Policy