Data Mining - "добыча или раскопка данных", "обнаружение знаний в базах данных", "интеллектуальный анализ данных".

  • данные имеют неограниченный объем;
  • данные разнородны: количественные, качественные, текстовые;
  • результаты должны быть конкретны и понятны;
  • инструменты для обработки сырых данных должны быть просты в использовании.

Наши страницы:

- Методы распознавания образов: метод статистически взвешенных синдромов (СВС).

- С помощью данных методов распознавания образов были успешно решены многие задачи медико-биологических исследований, что отражено в ряде публикаций.

- Вопросы по методам интеллектуального анализа данных и распознавания образов можно обсудить на форуме сайта .

- "Центр технологий анализа и прогнозирования "РЕШЕНИЯ" (на базе ВЦ РАН), универсальная программная система интеллектуального анализа данных, распознавания и прогноза; обработка экспериментальных, лабораторных, экспертных и статистических данных из различных предметных областей (финансы, бизнес, социология, техника, химия, геология, сельское хозяйство, медицина, физика, биология, и др.) с целью решения задач прогноза, распознавания, классификации ("с учителем" и "без учителя"), диагностики и поиска закономерностей.
Предлагаются услуги по выполнению работ, связанных с анализом данных и прогнозированием.
Сайт:
http://www.solutions-center.ru

Парочка слов от прессы.

- Конспект введения книги "Data Mining: учебный курс"
(Дюк В., Самойленко А. СПб. Изд. "Питер", 2001.)

Интеллектуальный анализ данных - Data Mining.

Шесть шагов к успеху:

    1. Четкое представление цели.

    2. Сбор релевантных данных.
    3. Выбор методов анализа.
    4. Выбор программных средств.
    5. Выполнение анализа.
    6. Принятие решения об использовании результатов.

В основу Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Разыскиваемые шаблоны должны быть нетривиальными.

Скрытые знания - hidden knowledge.
Сырые данные - raw data.
Data Mining - это процесс обнаружения в сырых данных

  • ранее неизвестных,

  • нетривиальных,
  • практически полезных,
  • доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Методы Data Mining играют ведущую роль в областях со сложной системной организацией. Их особенности - надкибернетический уровень организации систем, где данные неоднородны, гетерогенны, нестационарны и часто отличаются высокой размерностью.

Типы закономерностей, которые позволяют выявлять методы Data Mining:

  • ассоциация;

  • последовательность;
  • классификация;
  • кластеризация;
  • прогнозирование.

Ассоциация - выявление связи нескольких событий и оценка результативности скидок на наборы товаров;
Последовательность - выявление временной связи покупки товаров;
Классификация - выявление признаков, характеризующих группу, к которой принадлежит тот или иной объект, посредством обучения на уже классифицированных объектах, формулирование набора правил для каждой группы;
Кластеризация - самостоятельно выявляются однородные группы данных;
Прогнозирование - создание шаблонов, адекватно отражающих динамику поведения целевых показателей по временным рядам базы данных.

Отдача от использования Data Mining может достигать 1000%, могут быть получены ощутимые преимущества в конкурентной борьбе.

Применение Data Mining в бизнесе.

Розничная торговля: анализ потребительской корзины (улучшение рекламы, выработка стратегии создания запасов товаров, их раскладка в торговых залах), исследование временных шаблонов (создание запасов), создание прогнозирующих моделей (мероприятия по продвижению товаров).

Банковское дело: выявление мошенничества с кредитными карточками (выявление стереотипов), сегментация клиентов (маркетинговая политика для разных групп клиентов - целенаправленность и результативность), прогнозирование изменений клиентуры (модели ценности клиентов).

Телекоммуникации: анализ записей о подробных характеристиках вызовов (разработка наборов цен и услуг), выявление лояльности клиентов (прогноз постоянства клиента).

Страхование: выявление мошенничества (поиск стереотипов), анализ риска (уменьшение потерь по обязательствам).

Разные области бизнеса: прогноз популярности определенных характеристик товаров и услуг, политика гарантий (предсказать число клиентов), поощрение часто летающих клиентов.

Специальные приложения:

Медицина. Экспертные системы для постановки диагнозов построены на основе правил, описывающих сочетания различных симптомов различных заболеваний. Правила помогают выбирать показания (противопоказания), предсказывать исходы назначенного курса лечения.

Молекулярная генетика и генная инженерия. Определение маркеров, под которыми понимаются генетические коды, контролирующие те или иные фенотипические признаки живого организма. Известно несколько крупных фирм, специализирующихся на применении Data Mining для расшифровки генома человека и растений.

Прикладная химия. Выяснение особенностей химического строения химических соединений.

Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной cтатистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. В программном обеспечении системы Data Mining представлены следующим образом:

Классы систем Data Mining:
Статистические пакеты.
Предметно-ориентированные аналитические системы.
Нейронные сети.
Системы рассуждений на основе аналогичных случаев.
Деревья решений.
Эволюционное программирование.
Генетические алгоритмы.
Алгоритмы ограниченного перебора.
Системы для визуализации многомерных данных.

Статистические пакеты. Оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для "грубого" разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical, OLAP). Большинство методов опираются на усредненные характеристики выборки, которые при исследовании реальных сложных жизненных феноменов часто являются фиктивными величинами. Хорошо описаны пакеты STATGRAPHICS, STATISTICA, STADIA.

Предметно-ориентированные аналитические системы. Наиболее развиты системы в области исследования финансового рынка, так называемый "технический анализ": прогноз динамики цен, выбор оптимальной структуры инвестиционного портфеля, основанный на различных эмпирических моделях динамики рынка. Эти методы максимально учитывают специфику приложения (профессиональный язык, индексы и пр.).

Искусственные нейронные сети. Здесь для предсказания значения целевого показателя используются наборы входных переменных, математических функций активации и весовых коэффициентов входных параметров. Выполняется итеративный обучающий цикл, нейронная сеть модифицирует весовые коэффициенты до тех пор, пока предсказываемый выходной параметр соответствует действительному значению. После обучения нейронная сеть становится моделью, которую можно применить к новым данным с целью прогнозирования. Основным недостатком в этом случае является необходимость иметь очень большой объем обучающей выборки. Кроме того, любая нейронная сеть представляет собой "черный ящик" и знания в виде нескольких сотен весовых коэффициентов, полученных с ее помощью, не поддаются анализу и интерпретации. Примеры - BrainMaker, NeuroShell, OWL.

Системы рассуждений на основе аналогичных случаев. Вывод путем сопоставления (Memory-based Reasoning, MBR) или вывод, основанный на прецедентах (Case-based Reasoning, CBR). Эти алгоритмы основаны на обнаружении некоторых аналогий в прошлом, наиболее близких к текущей ситуации, с тем чтобы оценить неизвестное значение или предсказать возможные результаты (последствия). Эти методы называют еще методом "ближайшего соседа". В выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, на основе каких конкретно факторов строятся ответы. Примеры: KATE tools (Франция), Pattern Recognition Workbench (США), КОРА (Россия).

Деревья решений и Алгоритмы классификации. Создается иерархическая структура классифицирующих правил типа "ЕСЛИ..., ТО...", имеющая вид дерева. Для принятия решения, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Определяют естественные “разбивки” в данных, основанные на целевых переменных. Сначала выполняется разбивка по наиболее важным переменным. Ветвь дерева можно представить как условную часть правила. Наиболее часто встречающимися примерами являются алгоритмы классификационных и регрессионных деревьев (Classification and regression trees, CART) либо хи-квадрат индукция (Chi-squared Automatic Induction, CHAID). Недостаток: деревья решений принципиально не способны находить "лучшие" (наиболее полные и точные) правила в данных. (IDIS, KnowledgeSEEKER, See5/C5.0).

Эволюционное программирование. Искомая зависимость целевой переменной от других переменных моделируется несколькими вариантами алгоритмов, из которых отбирается тот, который воспроизводит зависимость более точно. Программы, совершенствуясь, конкурируют друг с другом как живые организмы при естественном отборе в борьбе за выживаемость. Примером такой системы является PolyAnalyst. Найденные зависимости представляются пользователю в виде математической формулы или таблицы. Иногда зависимость ищется в виде функции какого-то определенного вида, например в виде полинома. Так работает метод группового учета аргументов (МГУА).

Генетические алгоритмы. Исходно это было мощное средство решения разнообразных комбинаторных задач и задач оптимизации. Построение алгоритма начинается с кодировки логических закономерностей в базе данных (в виде так называемых, хромосом). Популяция таких хромосом обрабатывается при последовательных итерациях с проведением отбора, операции изменчивости (мутации), скрещивания, генетической композиции, как это происходит в природе с настоящими генами. Для отбора определенных особей и отклонения других используется “функция приспособленности” (fitness function). Генетические алгоритмы в первую очередь применяются для оптимизации топологии нейронных сетей и весов. Однако, их можно использовать и самостоятельно, для моделирования. Пример: GeneHunter.

Ассоциативные правила. Алгоритмы ограниченного перебора. Предложены М.М. Бонгардом для поиска логических закономерностей в данных. Выявляют причинно-следственные связи и определяют вероятности или коэффициенты достоверности, позволяя делать соответствующие выводы. Правила представлены в форме “если <условия>, то <вывод>”. Их можно использовать для прогнозирования или оценки неизвестных параметров (значений). На основе частоты встречаемости логических закономерностей делается вывод о полезности какой-либо их комбинации (конъюнкции) для установления ассоциации в данных, для классификации, прогнозирования и т.д. (Пример, WizWhy). Недостатки: максимальная длина комбинации в if-then-правиле равна 6; поиск простых логических событий в начале работы производится эвристически. Тем не менее данная система постоянно демонстрирует более высокие показатели при решении практических задач, чем все остальные алгоритмы.

Кластерный анализ. Подразделяет гетерогенные данные на гомогенные или полугомогенные группы. Метод позволяет классифицировать наблюдения по ряду общих признаков. Кластеризация расширяет возможности прогнозирования.

Системы для визуализации многомерных данных. Средства графического отображения данных поддерживаются всеми системами Data Mining. Но некоторые предназначены исключительно для этой цели (например, Data Miner 3D). Их главной характеристикой является дружелюбный пользовательский интерфейс с удобными средствами масштабирования и вращения изображений.

Конечно, для того, чтобы разобраться в достоинствах и недостатках приведенных здесь методов Data Mining, не достаточно столь краткого описания. Требуется гораздо больше информации и времени, чтобы сориентироваться в столь разнообразных и не всегда простых методах. Необходимы консультации профессионалов в области Data Mining, рекомендующих наилучший подход в той или иной ситуации. Но затраченные усилия не пропадут даром, т.к. методы Data Mining значительно расширяют возможности специалистов любой области знаний для выявления наиболее информативных показателей при обработке обширных баз данных и решении конкретных задач; позволяют обнаруживать порой принципиально новые факты, радикально меняющие известные взгляды. Благодаря быстрому прогрессу вычислительной техники и появлению программ с дружественным интерфейсом они становятся все более доступными для пользователя. Нужно грамотно использовать разные методы Data Mining при решении разных задач.



Счетчик включен 6.03.2008.



Сайт создан в системе uCoz