1. Ошибки, найденные с ребятами из словарей:
    * обработка вложенных тегов
    * логика подклеивания
2. Исправить и дополнить маркеры.
3. Полностью убрать аллокации.
4. Заголовки могут содержать больше одного абзаца (служебный текст, например). 
---
5. Похостовые признаки (частотность н-словий, частотность подпутей в дом - "A Site Oriented Method for Segmenting Web Pages").
6. Фича про плотность текста в линке (DOM Based Content Extraction via Text Density)
7. Признаки из http://tomazkovacic.com/blog/98/feature-wise-comparison-of-html-article-text-extractors/
---  
8. Машинное обучение заголовков.
9. Обучение для других моделей контента.
---
10. Использование сегментатора в полудубликатах (Composite Hashing with Multiple Information Sources)
11. Использование сегментатора при использовании хабовости в обходе (посмотреть на метрику, когда появится).

12. Тестирование по версиям для печати для зарубежных сайтов.

13. Фактор - близость ссылки на версию для печати.
14. Фактор для документного классификатора - наличие ссылки на версию для печати. И аналогичные признаки.

15. Blekko - какая разметка есть? Какие признаки и алгоритмы используются? Концепция трёх типов контента.

16. Взять крутые регулярки из yweb/antispam/tmu/rules/rules.r2, придумать, как их обновлять регулярно.

17. Использовать леммер для подсчета факторов пересечения

18. Фичи по ссылкам из обсуждения http://m.habrahabr.ru/post/147967/

19. Использование html5, микроразметки и информации из поделяшек.

20. Сегментатор как сервис. Обратная связь от вебмастеров.