Название словаря; использование; как получен

# СТАТИЧЕСКИЕ СЛОВАРИ

dict_ambiguous
    слова с неоднозначным значением
    найдены вручную

dict_bad
    запросы, содержащие эти слова, выкидываются
    найдены вручную

dict_diff
    несовместимые слова
    если в объявлении есть фразы со словами слева от "\t",
    то не расширяем фразами со словами справа от "\t", и наоборот
    построен вручную (по плохим ассоциациям) 

dict_navig
    слова, характерные для навигационных запросов
    выкидываем соотв. запросы
    составлены вручную

dict_stwrds
    стоп-слова от лингвистов
    выкидываются из запроса

models
    модели от callaby
    используются при разваливании фраз
    /dict_types -- сделанный вручную словарь "категория маркета" - "поисковая фраза"
        используется при генерации основного словаря моделей

dict_namesm
    мужские имена
    построил anisov

dict_namesw
    женские имена
    построил anisov

dict_wide
    слова с широкой семантикой
    каждая фраза должна содержать хотя бы одно неширокое слово
    найдены вручную skreling

dict_widebrands
    компании, производящие много видов товаром,
    например, Samsung
    (??)

dict_widephrs
    широкие фразы
    (??)

Словари синонимов описаны на вики:
http://wiki.yandex-team.ru/BM/Normalizer


HreftitleStop.dict
    стоп-слова(незначащие) для текстов ссылок (алгоритм hreftitle)
    найдены вручную

dict_reask_201011.gz
dict_suggest_201011.gz
    Опечатки
    подставлялись в запрос автоматически / предлагались
    формат: опечатка исправление частота
    сейчас перешли на автоматический транспорт, см. BM::Dict::Norm

dict_autosynonyms_201011
    Синонимы, полученные автоматически
    получены от sokirko@
    svn+ssh://arcadia.yandex.ru/arc/trunk/arcadia_tests_data/wizard_source_data/thesaurus/deriv/synon_filt.txt

dict_image_translations
    переводы с английского на русский
    входит в объединение словарей-синонимов (по ним строится замыкание)
    получены от Яндекс.Картинок

dict_biwords
    последовательность двух и более слов, имещих единую семантику
    встретив в запросе (или во фразе), объединяем их в одно целое

dict_geo
    словарь для разваливания гео-названий;
    генерится скриптом GeoDict.pl

dict_geo_exclusions
    исключения из гео-названий; для скрипта GeoDict.pl
    формат: страна города-исключения (возможна *)

dict_info
    словарь общеинформационных слов

dict_service
    словарь слов ремонта, гарантийного обслуживания и т.д.

dict_metrical
    список единиц измерения

dict_diseases
    словарь болезней, сделан на данных из википедии, МКБ10 и добавлением к этому фраз от баннеров

dict_hyponyms
    словарь миникатегорий, которые могут часто пересекаться друг с другом и требуют 
    внешнего разведения по разным песочницам

dict_misprints_add
    словарь для добавления опечаток вручную

dict_misprints_bad
    словарь для удаления плохих опечаток
    формат: см. словарь

mulword_syns
    многословные синонимы


#############

ContextFiltering
	словари минус-слов
	формат:
	Phrase \t MinusWord_1, ..., MinusWord_n

#############

normalize/lemmer-test-debian-64
    бинарник леммера от axc@

normalize/frequency_dict.csv
    частоты слов по Рускорпоре
    формат: слово;лемма;частота

normalize/pairs_AS
    существительные, парадигмы которых вкладываются в соотв. прилагательные
    формат: A=gram S=gram S=gram
    получен axc@

normalize/pairs_AS.fix
    исключения из предыдущего словаря

normalizer/lemmer_fix
    фикслист для нормализаторк
    формат:
        слово/лемма
        слово=лемма
        */лемма


# ДИНАМИЧЕСКИЕ СЛОВАРИ

Лежат в gen-dicts/

norm_dict
    нормализатор: слово нормальная_форма

syn_cells
    кластеры синонимов с опечатками

dict_directmod
    форазы, забаненные модерацией директа

dict_tragicword
    трагический контекст

models/Model_Vendor_Type.market
    модели из Маркета (регулярно обновляются)
