org.apache.lucene.analysis.pt.portuguese.rslp Maven / Gradle / Ivy
The newest version!
# Steps file for the RSLP stemmer.
# Step 1: Plural Reduction
{ "Plural", 3, 1, {"s"},
# bons -> bom
{"ns",1,"m"},
# balões -> balão
{"ões",3,"ão"},
# capitães -> capitão
{"ães",1,"ão",{"mães"}},
# normais -> normal
{"ais",1,"al",{"cais","mais"}},
# papéis -> papel
{"éis",2,"el"},
# amáveis -> amável
{"eis",2,"el"},
# lençóis -> lençol
{"óis",2,"ol"},
# barris -> barril
{"is",2,"il",{"lápis","cais","mais","crúcis","biquínis","pois","depois","dois","leis"}},
# males -> mal
{"les",3,"l"},
# mares -> mar
{"res",3,"r", {"árvores"}},
# casas -> casa
{"s",2,"",{"aliás","pires","lápis","cais","mais","mas","menos","férias","fezes","pêsames","crúcis","gás","atrás","moisés","através","convés","ês","país","após","ambas","ambos","messias", "depois"}}};
# Step 2: Adverb Reduction
{ "Adverb", 0, 0, {},
# felizmente -> feliz
{"mente",4,"",{"experimente"}}};
# Step 3: Feminine Reduction
{ "Feminine", 3, 1, {"a","ã"},
# chefona -> chefão
{"ona",3,"ão",{"abandona","lona","iona","cortisona","monótona","maratona","acetona","detona","carona"}},
# vilã -> vilão
{"ã",2,"ão",{"amanhã","arapuã","fã","divã"}},
# professora -> professor
{"ora",3,"or"},
# americana -> americano
{"na",4,"no",{"carona","abandona","lona","iona","cortisona","monótona","maratona","acetona","detona","guiana","campana","grana","caravana","banana","paisana"}},
# sozinha -> sozinho
{"inha",3,"inho",{"rainha","linha","minha"}},
# inglesa -> inglês
{"esa",3,"ês",{"mesa","obesa","princesa","turquesa","ilesa","pesa","presa"}},
# famosa -> famoso
{"osa",3,"oso",{"mucosa","prosa"}},
# maníaca -> maníaco
{"íaca",3,"íaco"},
# prática -> prático
{"ica",3,"ico",{"dica"}},
# cansada -> cansado
{"ada",2,"ado",{"pitada"}},
# mantida -> mantido
{"ida",3,"ido",{"vida","dúvida"}},
{"ída",3,"ido",{"recaída","saída"}},
# prima -> primo
{"ima",3,"imo",{"vítima"}},
# passiva -> passivo
{"iva",3,"ivo",{"saliva","oliva"}},
# primeira -> primeiro
{"eira",3,"eiro",{"beira","cadeira","frigideira","bandeira","feira","capoeira","barreira","fronteira","besteira","poeira"}}};
# Step 4: Augmentative/Diminutive Reduction
{ "Augmentative", 0, 1, {},
# cansadíssimo -> cansad
{"díssimo",5},
# amabilíssimo -> ama
{"abilíssimo",5},
# fortíssimo -> fort
{"íssimo",3},
{"ésimo",3},
# chiquérrimo -> chiqu
{"érrimo",4},
# pezinho -> pe
{"zinho",2},
# maluquinho -> maluc
{"quinho",4,"c"},
# amiguinho -> amig
{"uinho",4},
# cansadinho -> cansad
{"adinho",3},
# carrinho -> carr
{"inho",3,"",{"caminho","cominho"}},
# grandalhão -> grand
{"alhão",4},
# dentuça -> dent
{"uça",4},
# ricaço -> ric
{"aço",4,"",{"antebraço"}},
{"aça",4},
# casadão -> cans
{"adão",4},
{"idão",4},
# corpázio -> corp
{"ázio",3,"",{"topázio"}},
# pratarraz -> prat
{"arraz",4},
{"zarrão",3},
{"arrão",4},
# bocarra -> boc
{"arra",3},
# calorzão -> calor
{"zão",2,"",{"coalizão"}},
# meninão -> menin
{"ão",3,"",{"camarão","chimarrão","canção","coração","embrião","grotão","glutão","ficção","fogão","feição","furacão","gamão","lampião","leão","macacão","nação","órfão","orgão","patrão","portão","quinhão","rincão","tração","falcão","espião","mamão","folião","cordão","aptidão","campeão","colchão","limão","leilão","melão","barão","milhão","bilhão","fusão","cristão","ilusão","capitão","estação","senão"}}};
# Step 5: Noun Suffix Reduction
{ "Noun", 0, 0, {},
# existencialista -> exist
{"encialista",4},
# minimalista -> minim
{"alista",5},
# contagem -> cont
{"agem",3,"",{"coragem","chantagem","vantagem","carruagem"}},
# gerenciamento -> gerenc
{"iamento",4},
# monitoramento -> monitor
{"amento",3,"",{"firmamento","fundamento","departamento"}},
# nascimento -> nasc
{"imento",3},
{"mento",6,"",{"firmamento","elemento","complemento","instrumento","departamento"}},
# comercializado -> comerci
{"alizado",4},
# traumatizado -> traum
{"atizado",4},
{"tizado",4,"",{"alfabetizado"}},
# alfabetizado -> alfabet
{"izado",5,"",{"organizado","pulverizado"}},
# associativo -> associ
{"ativo",4,"",{"pejorativo","relativo"}},
# contraceptivo -> contracep
{"tivo",4,"",{"relativo"}},
# esportivo -> esport
{"ivo",4,"",{"passivo","possessivo","pejorativo","positivo"}},
# abalado -> abal
{"ado",2,"",{"grado"}},
# impedido -> imped
{"ido",3,"",{"cândido","consolido","rápido","decido","tímido","duvido","marido"}},
# ralador -> ral
{"ador",3},
# entendedor -> entend
{"edor",3},
# cumpridor -> cumpr
{"idor",4,"",{"ouvidor"}},
{"dor",4,"",{"ouvidor"}},
{"sor",4,"",{"assessor"}},
{"atoria",5},
{"tor",3,"",{"benfeitor","leitor","editor","pastor","produtor","promotor","consultor"}},
{"or",2,"",{"motor","melhor","redor","rigor","sensor","tambor","tumor","assessor","benfeitor","pastor","terior","favor","autor"}},
# comparabilidade -> compar
{"abilidade",5},
# abolicionista -> abol
{"icionista",4},
# intervencionista -> interven
{"cionista",5},
{"ionista",5},
{"ionar",5},
# profissional -> profiss
{"ional",4},
# referência -> refer
{"ência",3},
# repugnância -> repugn
{"ância",4,"",{"ambulância"}},
# abatedouro -> abat
{"edouro",3},
# fofoqueiro -> fofoc
{"queiro",3,"c"},
{"adeiro",4,"",{"desfiladeiro"}},
# brasileiro -> brasil
{"eiro",3,"",{"desfiladeiro","pioneiro","mosteiro"}},
{"uoso",3},
# gostoso -> gost
{"oso",3,"",{"precioso"}},
# comercializaç -> comerci
{"alizaç",5},
{"atizaç",5},
{"tizaç",5},
{"izaç",5,"",{"organizaç"}},
# alegaç -> aleg
{"aç",3,"",{"equaç","relaç"}},
# aboliç -> abol
{"iç",3,"",{"eleiç"}},
# anedotário -> anedot
{"ário",3,"",{"voluntário","salário","aniversário","diário","lionário","armário"}},
{"atório",3},
{"rio",5,"",{"voluntário","salário","aniversário","diário","compulsório","lionário","próprio","stério","armário"}},
# ministério -> minist
{"ério",6},
# chinês -> chin
{"ês",4},
# beleza -> bel
{"eza",3},
# rigidez -> rigid
{"ez",4},
# parentesco -> parent
{"esco",4},
# ocupante -> ocup
{"ante",2,"",{"gigante","elefante","adiante","possante","instante","restaurante"}},
# bombástico -> bomb
{"ástico",4,"",{"eclesiástico"}},
{"alístico",3},
{"áutico",4},
{"êutico",4},
{"tico",3,"",{"político","eclesiástico","diagnostico","prático","doméstico","diagnóstico","idêntico","alopático","artístico","autêntico","eclético","crítico","critico"}},
# polêmico -> polêm
{"ico",4,"",{"tico","público","explico"}},
# produtividade -> produt
{"ividade",5},
# profundidade -> profund
{"idade",4,"",{"autoridade","comunidade"}},
# aposentadoria -> aposentad
{"oria",4,"",{"categoria"}},
# existencial -> exist
{"encial",5},
# artista -> art
{"ista",4},
{"auta",5},
# maluquice -> maluc
{"quice",4,"c"},
# chatice -> chat
{"ice",4,"",{"cúmplice"}},
# demoníaco -> demon
{"íaco",3},
# decorrente -> decorr
{"ente",4,"",{"freqüente","alimente","acrescente","permanente","oriente","aparente"}},
{"ense",5},
# criminal -> crim
{"inal",3},
# americano -> americ
{"ano",4},
# amável -> am
{"ável",2,"",{"afável","razoável","potável","vulnerável"}},
# combustível -> combust
{"ível",3,"",{"possível"}},
{"vel",5,"",{"possível","vulnerável","solúvel"}},
{"bil",3,"vel"},
# cobertura -> cobert
{"ura",4,"",{"imatura","acupuntura","costura"}},
{"ural",4},
# consensual -> consens
{"ual",3,"",{"bissexual","virtual","visual","pontual"}},
# mundial -> mund
{"ial",3},
# experimental -> experiment
{"al",4,"",{"afinal","animal","estatal","bissexual","desleal","fiscal","formal","pessoal","liberal","postal","virtual","visual","pontual","sideral","sucursal"}},
{"alismo",4},
{"ivismo",4},
{"ismo",3,"",{"cinismo"}}};
# Step 6: Verb Suffix Reduction
{ "Verb", 0, 0, {},
# cantaríamo -> cant
{"aríamo",2},
# cantássemo -> cant
{"ássemo",2},
# beberíamo -> beb
{"eríamo",2},
# bebêssemo -> beb
{"êssemo",2},
# partiríamo -> part
{"iríamo",3},
# partíssemo -> part
{"íssemo",3},
# cantáramo -> cant
{"áramo",2},
# cantárei -> cant
{"árei",2},
# cantaremo -> cant
{"aremo",2},
# cantariam -> cant
{"ariam",2},
# cantaríei -> cant
{"aríei",2},
# cantássei -> cant
{"ássei",2},
# cantassem -> cant
{"assem",2},
# cantávamo -> cant
{"ávamo",2},
# bebêramo -> beb
{"êramo",3},
# beberemo -> beb
{"eremo",3},
# beberiam -> beb
{"eriam",3},
# beberíei -> beb
{"eríei",3},
# bebêssei -> beb
{"êssei",3},
# bebessem -> beb
{"essem",3},
# partiríamo -> part
{"íramo",3},
# partiremo -> part
{"iremo",3},
# partiriam -> part
{"iriam",3},
# partiríei -> part
{"iríei",3},
# partíssei -> part
{"íssei",3},
# partissem -> part
{"issem",3},
# cantando -> cant
{"ando",2},
# bebendo -> beb
{"endo",3},
# partindo -> part
{"indo",3},
# propondo -> prop
{"ondo",3},
# cantaram -> cant
{"aram",2},
{"arão",2},
# cantarde -> cant
{"arde",2},
# cantarei -> cant
{"arei",2},
# cantarem -> cant
{"arem",2},
# cantaria -> cant
{"aria",2},
# cantarmo -> cant
{"armo",2},
# cantasse -> cant
{"asse",2},
# cantaste -> cant
{"aste",2},
# cantavam -> cant
{"avam",2,"",{"agravam"}},
# cantávei -> cant
{"ávei",2},
# beberam -> beb
{"eram",3},
{"erão",3},
# beberde -> beb
{"erde",3},
# beberei -> beb
{"erei",3},
# bebêrei -> beb
{"êrei",3},
# beberem -> beb
{"erem",3},
# beberia -> beb
{"eria",3},
# bebermo -> beb
{"ermo",3},
# bebesse -> beb
{"esse",3},
# bebeste -> beb
{"este",3,"",{"faroeste","agreste"}},
# bebíamo -> beb
{"íamo",3},
# partiram -> part
{"iram",3},
# concluíram -> conclu
{"íram",3},
{"irão",2},
# partirde -> part
{"irde",2},
# partírei -> part
{"irei",3,"",{"admirei"}},
# partirem -> part
{"irem",3,"",{"adquirem"}},
# partiria -> part
{"iria",3},
# partirmo -> part
{"irmo",3},
# partisse -> part
{"isse",3},
# partiste -> part
{"iste",4},
{"iava",4,"",{"ampliava"}},
# cantamo -> cant
{"amo",2},
{"iona",3},
# cantara -> cant
{"ara",2,"",{"arara","prepara"}},
# cantará -> cant
{"ará",2,"",{"alvará"}},
# cantare -> cant
{"are",2,"",{"prepare"}},
# cantava -> cant
{"ava",2,"",{"agrava"}},
# cantemo -> cant
{"emo",2},
# bebera -> beb
{"era",3,"",{"acelera","espera"}},
# beberá -> beb
{"erá",3},
# bebere -> beb
{"ere",3,"",{"espere"}},
# bebiam -> beb
{"iam",3,"",{"enfiam","ampliam","elogiam","ensaiam"}},
# bebíei -> beb
{"íei",3},
# partimo -> part
{"imo",3,"",{"reprimo","intimo","íntimo","nimo","queimo","ximo"}},
# partira -> part
{"ira",3,"",{"fronteira","sátira"}},
{"ído",3},
# partirá -> part
{"irá",3},
{"tizar",4,"",{"alfabetizar"}},
{"izar",5,"",{"organizar"}},
{"itar",5,"",{"acreditar","explicitar","estreitar"}},
# partire -> part
{"ire",3,"",{"adquire"}},
# compomo -> comp
{"omo",3},
# cantai -> cant
{"ai",2},
# cantam -> cant
{"am",2},
# barbear -> barb
{"ear",4,"",{"alardear","nuclear"}},
# cantar -> cant
{"ar",2,"",{"azar","bazaar","patamar"}},
# cheguei -> cheg
{"uei",3},
{"uía",5,"u"},
# cantei -> cant
{"ei",3},
{"guem",3,"g"},
# cantem -> cant
{"em",2,"",{"alem","virgem"}},
# beber -> beb
{"er",2,"",{"éter","pier"}},
# bebeu -> beb
{"eu",3,"",{"chapeu"}},
# bebia -> beb
{"ia",3,"",{"estória","fatia","acia","praia","elogia","mania","lábia","aprecia","polícia","arredia","cheia","ásia"}},
# partir -> part
{"ir",3,"",{"freir"}},
# partiu -> part
{"iu",3},
{"eou",5},
# chegou -> cheg
{"ou",3},
# bebi -> beb
{"i",3}};
# Step 7: Vowel Removal
{ "Vowel", 0, 0, {},
{"bil",2,"vel"},
{"gue",2,"g",{"gangue","jegue"}},
{"á",3},
{"ê",3,"",{"bebê"}},
# menina -> menin
{"a",3,"",{"ásia"}},
# grande -> grand
{"e",3},
# menino -> menin
{"o",3,"",{"ão"}}};