edu.emory.mathcs.nlp.configuration.config-train-pos.xml Maven / Gradle / Ivy

Go to download
Show more of this group Show more artifacts with this name
Show all versions of nlp4j-api Show documentation
The newest version!
<!-- part-of-speech tagging -->
<configuration>
    <tsv>
        <column index="1" field="form"/>
        <column index="3" field="pos"/>
    </tsv>

    <lexica>
        <ambiguity_classes field="word_form_simplified_lowercase">edu/emory/mathcs/nlp/lexica/en-ambiguity-classes-simplified-lowercase.xz</ambiguity_classes>
        <word_clusters field="word_form_simplified_lowercase">edu/emory/mathcs/nlp/lexica/en-brown-clusters-simplified-lowercase.xz</word_clusters>
    </lexica>

    <optimizer>
        <l1_regularization>0.00001</l1_regularization>
        <algorithm>adagrad-mini-batch</algorithm>
        <learning_rate>0.02</learning_rate>
        <feature_cutoff>2</feature_cutoff>
        <lols fixed="0" decaying="0.95"/>
        <batch_size>5</batch_size>
        <max_epoch>40</max_epoch>
        <bias>0</bias>
    </optimizer>

    <reducer>
        <lower_bound>97.48</lower_bound>
        <increment>0.01</increment>
        <iteration>2</iteration>
        <start>0.05</start>
        <range>0.005</range>
    </reducer>

    <feature_template>
        <!-- 1-gram features -->
        <feature f0="i-2:word_form_simplified"/>
        <feature f0="i-1:word_form_simplified"/>
        <feature f0="i:word_form_simplified"/>
        <feature f0="i+1:word_form_simplified"/>
        <feature f0="i+2:word_form_simplified"/>

        <feature f0="i-1:word_shape"/>
        <feature f0="i:word_shape"/>
        <feature f0="i+1:word_shape"/>

        <feature f0="i-3:part_of_speech_tag"/>
        <feature f0="i-2:part_of_speech_tag"/>
        <feature f0="i-1:part_of_speech_tag"/>

        <feature set="true" f0="i:ambiguity_classes"/>
        <feature set="true" f0="i+1:ambiguity_classes"/>
        <feature set="true" f0="i+2:ambiguity_classes"/>
        <feature set="true" f0="i+3:ambiguity_classes"/>

        <!-- 2-gram features -->
        <feature f0="i-2:word_form_simplified_lowercase" f1="i-1:word_form_simplified_lowercase"/>
        <feature f0="i-1:word_form_simplified_lowercase" f1="i:word_form_simplified_lowercase"/>
        <feature f0="i:word_form_simplified_lowercase"   f1="i+1:word_form_simplified_lowercase"/>
        <feature f0="i+1:word_form_simplified_lowercase" f1="i+2:word_form_simplified_lowercase"/>
        <feature f0="i-1:word_form_simplified_lowercase" f1="i+1:word_form_simplified_lowercase"/>

        <feature f0="i-2:part_of_speech_tag" f1="i-1:part_of_speech_tag"/>
        <feature f0="i-1:part_of_speech_tag" f1="i+1:ambiguity_classes"/>
        <feature f0="i+1:ambiguity_classes"  f1="i+2:ambiguity_classes"/>

        <!-- 3-gram features -->
        <feature f0="i-2:part_of_speech_tag" f1="i-1:part_of_speech_tag" f2="i:ambiguity_classes"/>
        <feature f0="i-1:part_of_speech_tag" f1="i:ambiguity_classes"    f2="i+1:ambiguity_classes"/>
        <feature f0="i-2:part_of_speech_tag" f1="i-1:part_of_speech_tag" f2="i+1:ambiguity_classes"/>
        <feature f0="i-1:part_of_speech_tag" f1="i+1:ambiguity_classes"  f2="i+2:ambiguity_classes"/>

        <!-- affix features -->
        <feature f0="i:prefix:2"/>
        <feature f0="i:prefix:3"/>

        <feature f0="i:suffix:1"/>
        <feature f0="i:suffix:2"/>
        <feature f0="i:suffix:3"/>
        <feature f0="i:suffix:4"/>

        <!-- orthographic features -->
        <feature set="true" f0="i:orthographic"/>

        <!-- positional features -->
        <feature set="true" f0="i:positional"/>

        <!-- word cluster features -->
        <feature set="true" f0="i-1:word_clusters"/>
        <feature set="true" f0="i:word_clusters"/>
        <feature set="true" f0="i+1:word_clusters"/>
    </feature_template>
</configuration>