Анализ данных в психологии и соционике

aniyes

Дата: Вторник, 04.11.2008, 14:36 | Сообщение # 1

Администратор

Группа: Модераторы

Сообщений: 35

Репутация: 0

Статус: Offline

Это обсуждение проходило в блогах mail.ru
Приведу его здесь, как пример трудности объяснения возможностей методов распознавания.

aniyes

Дата: Вторник, 04.11.2008, 14:40 | Сообщение # 2

Администратор

Группа: Модераторы

Сообщений: 35

Репутация: 0

Статус: Offline

http://blogs.mail.ru/communi....&skip=0
П.Г.: А у меня будет к вам вопрос по Вашей тематике, такой:
Сколько (объём) нужно данных по объектам,
чтобы выяснить более-менее достоверно, что полное множество объектов
расщепляется не на 16 групп и не на 24, а на 384 группы ?
?????
(Понятна формулировка проблемы?)
Aniyes: 11 520 - минимум - для простой статистики (в каждой группе не менее 30 чел).
Для распознавания образов - можно анализировать каждую дихотомию для соционики - это
П.Г.: Нет, про соционику пока ни слова smile

никаких априорных данных.
Просто, нужно получить достоверно количество групп.
Причём, есть косвенные данные, что в реальности ВОЗМОЖНЫ какие-то группировки,
по рассматриваемым группам, т.е. отфонарная выборка имеет шансы быть несбалансированной по ним.
Количество объектов Вы уже, как я понял, сказали, а объём данных на объект какой требуется?
Aniyes: 15*30 = 450 (но это должны быть верифицированные (доказанные) индивидуумы)
Для психейоги - другая метода. Там не дихотомии, а число перестановок.
Тоже не меньше 720 доказанных представителей групп.
=========
Только это все - не имеет смысла.
Почему Вы берете только эти две типологии:
есть еще много других очень достойных и работающих на практике.
Вот деление на 5 типов, например: оральныый, шизоидный, психопатический, мазохистский, жесткий. Сочетание их - дает гарантированно портрет любого человека.
Старые методы по темпераментам, например, и т.д.
В каждом индивидуальном случае надо использовать ту методику, в которую данный человек вписывается наиболее чисто. И исходя их его потребностей решить ту или иную проблему.
--------------
чисто теоретически - было бы, конечно, очень интересно это все подтвердить, при наличии собранной верифицированной базы данных.
Но мы еще не решили проблему определения типа - объективно. Что уж говорить об обучении машины относить человека к одному из 384 типов...

aniyes

Дата: Вторник, 04.11.2008, 14:40 | Сообщение # 3

Администратор

Группа: Модераторы

Сообщений: 35

Репутация: 0

Статус: Offline

П.Г.: И ещё, можно ли будет установить, что это не одна "система", а две независимые,
т.е. количество требуемых показателей не Х(384), а Х(16) + Х(24)
????
(Понятно, о чём я?)
Aniyes: Вы предполагаете вносить в базу результаты анкет?
описание внешности?
реакцию в заданных условиях?
Для Data Mining чем признаков больше, тем лучше. Есть автоматический отбор наиболее информативных показателей.
При неизвестных группах - можно использовать кластерный анализ. Будет автоматическая группировка на кластеры. Но вряд ли их будет так много. Скорее не больше нескольких десятков.
П.Г.: Да без разницы мне, какие данные.
Пусть, для определённости, это будет текст.
Неважно, ответы на анкету (развёрнутые) или просто аутентичный авторский текст.
Я хочу гарантированно распознать группировку,
и хочу знать, сколько нужно данных для этого,
если мощность группировки такая, как я написал...
????
Aniyes: Хочу - это сильно сказано.
А есть ли на это хочу - дополняющее "Могу"? Тогда и можно рассчитывать на успех.

Данные - это бОльшая половина дела. Как соберете, как структурируете, так и получите ответы на свои вопросы.
Есть грубая прогаммистская истина: "джир ин - джир аут". Дерьмо положишь - дерьмо возьмешь.
Идеальный вариант собрать о каждом человеке максимум информации: результаты опросников, тексты, внешние признаки, любимые предметы в школе, вплоть до клинических показателей. Можно добавить данные по акупунктурным точкам, для связи с физиологией и энергетическим потенциалом... Как я писала выше - чем больше, тем лучше.
Это титанический труд, за который мало кто может взяться.
Вы уверены, что текст дает однозначно тип человека? Есть собственные формализованные показатели по этому тесту? Или на уровне интуиции - мне так каааэтся...
Машине интуиция еще недоступна. (и в ближайшее время не думаю, что будет доступна).
Все нужно формализовать и прописывать признаки: 0 или 1, да - нет, присутствует - отсутствует.
Возможно по тексту и будут распознающие программы, но они будут опираться опять же на первоначальное обучение машины по паттернам (по образцам). Сначала машина обучается, какие признаки соответствуют какому типу. Потом относит человека к этому типу. И то - с некоторой вероятностью.
В общем, это работа серьезного коллектива. Пока я таких данных ни у кого не видела.
Но начинать с чего-то надо. Можно для начала анализировать то, что есть. Числа я описала выше.

aniyes

Дата: Вторник, 04.11.2008, 14:47 | Сообщение # 4

Администратор

Группа: Модераторы

Сообщений: 35

Репутация: 0

Статус: Offline

П.Г.: Ещё раз: НИ СЛОВА О СОЦИОНИКЕ smile

Ну хорошо, тогда совсем прозрачно задачу поставлю:
по какому количеству данных можно ГАРАНТИРОВАННО ПОЛУЧИТЬ
и соционику и ПЙ, и причём раздельно.
При единственном априорном знании, что в одной типов примерно 16,
а в другой - примерно 24.
??????
И второе, с какой вероятностью неотфильтрованные даные
при стат анализе вместо соционики дадут ПЙ и наоборот,
в зависимости от их количества
????
Aniyes: Ещё раз: НИ СЛОВА О СОЦИОНИКЕ
- ГАРАНТИРОВАННО ПОЛУЧИТЬ и соционику ...
Я "плакаль" над Вашей логикой.
Собирайте данные (Вы, кстати, не ответили, какие), чем больше, тем лучше.
Присылайте. Посмотрим, что можно сделать..
С наилучшими пожеланиями,
Анна
П.Г.: Я "плакаль" над Вашей логикой.
соционика учит нас, что логика у всех разная
А моя логика очень проста -
прежде чем (пытаться) собирать данные,
понять - сколько их реально нужно?
И, второе, есть целый ряд претензий на стат. исследования
методик тестирования на социотип.
И я хотел иметь оценку, насколько они несерьёзны, чисто по объёмам.
Понятно объяснил?
В любом случае, спасибо за содержательную дискуссию smile

aniyes

Дата: Вторник, 04.11.2008, 14:48 | Сообщение # 5

Администратор

Группа: Модераторы

Сообщений: 35

Репутация: 0

Статус: Offline

Aniyes: Я "плакаль" над Вашей логикой.
соционика учит нас, что логика у всех разная
Тогда не надо акцентировать слабые функции.
понять - сколько их реально нужно?
Стат. исследования, действительно, могут быть несерьёзны, чисто по объёмам.
Потому и стало развиваться новое направление, не зависящее от нормального распределения данных, от объема выборок, от наличия пропусков в данных.
Это Data Mining. Теория распознавания образов доказывает достоверность другими методами, отличными от методов традиционной статистики.
Можно обойтись гораздо меньшим объемом выборки.
Понятно объяснил?
Вы, вероятно, квестим...
Спасибо. Надо искать возможности вывести соционику на объективное типирование. Это фактически основной критерий ее выживаемости.
П.Г.: Тогда не надо акцентировать слабые функции.
Вы это о чём?
О своей неспособности понять мою логику?
Стат. исследования, действительно, могут быть несерьёзны, чисто по объёмам.
Потому и стало развиваться новое направление, не зависящее от нормального распределения данных, от объема выборок, от наличия пропусков в данных.
Это Data Mining. Теория распознавания образов доказывает достоверность другими методами, отличными от методов традиционной статистики.
Можно обойтись гораздо меньшим объемом выборки.
Ну, тут Вы как-то палку-то перегибаете, на мой взгляд.
Если данных НЕТ - то их НЕТ, и тут ничего не сделать.
А если Вы ведёте речь о том, что одни и те же данные могут быть использованы как прямые в одних вопросах и как косвенные в других - так для этого должна быть модель, с обоснованием, не так ли? А модель ещё, вообще-то, придумать надо, по шаблону редко удачные модели получаются...
Я неправ?
То есть, минимальный объём данных у нас был, так и остался, так?
Тем более, что я именно так вопрос и ставил - обоснование ЧИСТО на статистике, БЕЗ применения моделей -
потому что, модели кто в лес применяет, кто по дрова, а кто и через технологическое отверстие норовит...
Вы, вероятно, квестим...
Ещё раз с больной головы на здоровую.
"Соционику надо вывести..." - согласен,
а я тут чем занимаюсь, по-Вашему?

aniyes

Дата: Вторник, 04.11.2008, 14:50 | Сообщение # 6

Администратор

Группа: Модераторы

Сообщений: 35

Репутация: 0

Статус: Offline

Aniyes: Вы мыслите только категориями либо статистика, либо умозрительные модели.
Я несколько раз уже писала о новых методах - опирающихся на эмпирические данные - DataMining. Это и не статистика( в чистом виде), и не модели (в умозрительном виде). Это модели, которые формируются на существующих эмпирических данных.
Они полностью зависят от качества собранной информации.
Единственная база, которая приходила ко мне в руки, была собрана на основе теста MBTI.
Никто не проверял, соответствует ли результат теста настоящему типу человека.
Более того, "хозяйка" этих данных сразу отказывается брать на себя труд (ответственность) определения типа.
Как можно что-то сказать по такому тесту? Только то, что люди отвечают так, как им кажется они должны выглядеть, отвечая на тот или иной вопрос.
Сколько шума в таких данных?
--------------
Я не возражала на Ваше типирование моей "беспечности",
почему Вас обижает мое предположение Вашей "квестимности". Это же не стыдно...
Квестимы ничем не хуже деклатимов.
П.Г.: почему Вас обижает мое предположение Вашей "квестимности".
Меня обижает немного другое.
1) эта диагностика неверна, но
2) я действительно сильно изменил манеру разговора в общении с Вами,
3) потому что, в противном случае Вы бы вообще излагаемое мной не воспринимали. [извините]
Понятно объяснил?
Aniyes: По-моему, весь разговор велся Вами с позиции обиженного.
Но я, заметьте, Вас не обижала. Я максимально хорошо ПЫТАЛАСЬ объяснить Вам суть работы методов и методику сбора информации.
К сожалению, все это оказалось Вам не доступно вследствие изначальной установки обиженного.
Работа так не делается. Даже в изначально непроверенных данных можно найти золотое зерно - например, как люди пытаются КАЗАТЬСЯ. Это тоже результат. В среде биржевых игроков большинство предпочли казаться штирлицами и джеками, до 80%.
Вы тоже хотите казаться более умным.
Это Ваше право.
Разберитесь сначала со своими амбициями.
Я открыта к сотрудничеству.
П.Г.: Статистика и "навешиваемые" на неё "сверху" модели - это РАЗНЫЕ методы решения вопроса. Естественно, я разделяю их в своём сознании и контролирую применение.
Дальше, что касается DataMining - во всех статьях на эту тему, где кроме абстрактного бла-бла были конкретные примеры, в этих примерах модели были построены ВРУЧНУЮ. Никакой автоматики в этом вопросе. То есть, я бы сказал, сейчас это скорее искусство с некоторыми элементами технологии. Стало быть - это романтично, но доверять можно только конкретным рукам. И именно по этой причине, применимость DataMining весьма ограничена.
Может быть, я чего-то не знаю, или что-то понимаю не так?

aniyes

Дата: Вторник, 04.11.2008, 14:51 | Сообщение # 7

Администратор

Группа: Модераторы

Сообщений: 35

Репутация: 0

Статус: Offline

Aniyes: Вот такие вопросы внушают надежду на понимание. (Вы все-таки квестим).
"Во всех статьях, которые попали к Вам в руки" - это наверняка не все, что пубиковалось по методам.
Вся ручная работа в анализе - это сбор данных. (В наших методиках).
Этот сбор - самое узкое место. О чем я тут и говорила вчера целый день.
Остальное - дело машины. Можно изменить некоторые коэффициенты (для получения большей эффективности), но все основное делается автоматически.
Давайте продолжим беседу на форуме по методам DataMining.
Мои статьи в интернете:
2008 г. - http://www.springerlink.com/content/175687p6p487r033/ - The use of pattern recognition methods in tasks of biomedical diagnostics and forecasting. Yu. I. Zhuravlev, A. V. Kuznetsova, V. V. Ryazanov, O. V. Senkо, M. A. Botvin
2006 г. – http://interstat.statjournals.net/YEAR/2006/articles/0604002.pdf - The Optimal Valid Partitioning Procedures. Senko Oleg V., Kuznetsova A.V.
2005 г. - http://azfor.ucoz.ru/_ld/0/5_2Vrach38-46.pdf - Возможности использования методов Data Mining при медико-лабораторных исследованиях. Журнал "Врач и Информационные Технологии"
2003 г - http://azfor.ucoz.ru/load/4-1-0-6 - Прогноз динамики депрессивных синдромов, Журнал «Социальная и клиническая психиатрия». 2003, №4, с.18-24.

PXG

Дата: Среда, 12.11.2008, 13:45 | Сообщение # 8

Пользователь

Группа: Пользователи

Сообщений: 2

Репутация: 0

Статус: Offline

Я, собственно, сначала поясню, с самого начала -
для чего именно мне были нужны оценки, и какие.

Пусть, некто пытается ститистически исследовать метод психофункциональной диагностики,
условно сводимый к получению ответов на вопросы.

Будь это прямые ответы испытуемых на вопросы,
или же вытаскивание этих ответов из их аутентичных текстов.
Безусловно, с т.зр. метода это важно, но мой контекст другой -
я хочу исследовать этот метод чисто статистически.

Таким образом, результат обработанного теста представИм как:
фиксированное множество вопросов, и для каждого один из трех вариантов - "ответ ДА", "ответ НЕТ", "нет достоверного ответа".

Теперь, собственно, мой вопрос,
точнее, вопросы:
1) после какого объёма данных (в "глубину" и в "ширину"), мы можем стат. достоверно сказать,
что ответы на некую вырезку вопросов демонстрируют деление на 16 групп?
2) //--// 24 группы?
3) вырезки из пп. 1),2) не пересекаются

?????

И ещё, один такой методический вопрос, так сказать, "сбоку" -
как производится управление разнообразием "задаваемых вопросов" - ?

Понятно изложил?

Добавлено (12.11.2008, 13:41)
---------------------------------------------
Или, может быть, проще будет спросить по приведённым цифрам?

Quote (aniyes)

11 520 - минимум - для простой статистики (в каждой группе не менее 30 чел).

вот здесь, 11520 - это чего именно, и для какой задачи?
"в каждой группе не менее 30 чел" - это должно быть обеспечено кем
и как этим параметром можно пытаться управлять априорно?

Добавлено (12.11.2008, 13:45)
---------------------------------------------

Quote (aniyes)

Aniyes: 15*30 = 450 (но это должны быть верифицированные (доказанные) индивидуумы)
Для психейоги - другая метода. Там не дихотомии, а число перестановок.
Тоже не меньше 720 доказанных представителей групп.

А это, я так понимаю, данные под задачу "получить калиброванные тесты по калибровочным образцам" - ?

[url=http://socionik.org/forum/]Типологическая арена[/url]

aniyes

Дата: Среда, 12.11.2008, 14:22 | Сообщение # 9

Администратор

Группа: Модераторы

Сообщений: 35

Репутация: 0

Статус: Offline

Если я правильно понимаю, Вы, PXG, знакомы с традиционными статистическими методами и, возможно, мат. моделированием?
Ваши вопросы могут считаться корректными только при точном определении, о какого рода методах идет речь. Статистика накладывает очень жесткие ограничение на исследуемую выборку:
первое правило: число объектов (записей, персон, испытуемых) должно превышать число показателей (вопросов, признаков, характеристик).
Кроме того, большинство параметрических статистических методов требует нормального распределения. Гистограмма всей выборки должна представлять собой колокол - максимум в центре и уменьшение до минимумов на краях. Для бинарных (да, нет) признаков эти методы вообще не подходят.
Поэтому, если Вы хотите критиковать чьи-то исследования, то эти вопросы надо задавать в первую очередь:
число объектов выборки,
число признаков,
выполняется ли условие нормальности.
Если последнее не выполняется, можно применять только непараметрические методы, не зависящие от распределения выборки.
Число объектов - не менее 30. Управлять этим можно только в сторону увеличения.
Число 11 520 получилось просто перемножением: 16 * 24 * 30.
Теперь число признаков: их должно быть столько, чтобы достоверно выявлялся конкретный показатель: дихотомия сенсорика-интуиция (могут быть десятки вопросов), логика-этика, ... физика, эмоция...
Известен ли Вам тест, гарантирующий 100% выявление признака?
Когда я отвечала на вопросы, я ориентировалась на методы распознавания образов - более близкие мне. Это не традиционная статистика. Эти методы опираются на верифицированные эмпирические данные.
Т.е. мы уже заранее определяем типы людей. Опрашиваем их, и обучаем машину - вот так отвечают ДК, а вот так Дюмы...
При анализе текстов возможно использование таких методов, которые используются при исследовании геномов: преобразования Фурье, методы динамического программирования, методы анализа стат. свойств распределений символов, информационные и др. подходы. Этим занимаются, например, в Центре "Биоинженерия".
Но все равно, сначала надо собрать хоть какие-нибудь данные - чем больше, тем лучше. И делать это должен человек, понимающий, что он хочет на выходе.

PXG

Дата: Среда, 12.11.2008, 16:48 | Сообщение # 10

Пользователь

Группа: Пользователи

Сообщений: 2

Репутация: 0

Статус: Offline

Quote (aniyes)

Если я правильно понимаю, Вы, PXG, знакомы с традиционными статистическими методами и, возможно, мат. моделированием?

Да, причём со статистикой знаком заметно хуже.
Поэтому я и пытался увести разговор от моделей smile

Quote (aniyes)

Гистограмма всей выборки должна представлять собой колокол - максимум в центре и уменьшение до минимумов на краях. Для бинарных (да, нет) признаков эти методы вообще не подходят.

Неужели никто ещё не придумал методы, заточенные для обработки зашумлённых бинарных данных?
НЕ ВЕРЮ! (Ц)Станиславский smile

Quote (aniyes)

Число объектов - не менее 30. Управлять этим можно только в сторону увеличения.

То есть, "минимальное число объектов на единицу распознавания", я правильно понял?
Но ведь это значение может быть выяснено только ПОСЛЕ распознавания?
А что же нам делать с этим ДО ?

Quote (aniyes)

Число 11 520 получилось просто перемножением: 16 * 24 * 30.

То есть, это число - минимум миниморум количества народа, при калибровке по которому
можно надеяться на "сампроизвольное" разделение соционики и ПЙ, я правильно понял?
Спасибо smile

Добавлено (12.11.2008, 16:48)
---------------------------------------------

Quote (aniyes)

Теперь число признаков: их должно быть столько, чтобы достоверно выявлялся конкретный показатель: дихотомия сенсорика-интуиция (могут быть десятки вопросов), логика-этика, ... физика, эмоция...

Вроде бы, Рейнин показал, что при делении бинарного характера на N типов можно выделить N-1 независимый бинарный признак,
или я что-то не так понимаю?

Quote (aniyes)

Известен ли Вам тест, гарантирующий 100% выявление признака?

Очевидно НЕТ smile

Очевидно, что в каждом реальном тесте предусматривается механизм контроля погрешности -
по крайней мере, тех компонент погрешности, которые на данный момент известны
или хотя бы предсказаны wink

Quote (aniyes)

Когда я отвечала на вопросы, я ориентировалась на методы распознавания образов - более близкие мне. Это не традиционная статистика. Эти методы опираются на верифицированные эмпирические данные.

Я правильно понимаю, что методика распознавания может быть разбита на
(и через это верифицирована)
последовательность преобразований данных "модель - статистика - модель - статистика - ...." ?????

Quote (aniyes)

Т.е. мы уже заранее определяем типы людей. Опрашиваем их, и обучаем машину - вот так отвечают ДК, а вот так Дюмы...

То есть, Вы как раз из тех, кто занимается именно задачами калибровки,
которые строго ортогональны задаче, которую я сформулировал smile

Тогда, думаю, отчасти понятно, почему мы так не сразу смогли понять друг друга smile

Спасибо

[url=http://socionik.org/forum/]Типологическая арена[/url]

oleg_s

Дата: Пятница, 05.12.2008, 21:16 | Сообщение # 11

Пользователь

Группа: Пользователи

Сообщений: 1

Репутация: 0

Статус: Offline

О количестве необходимых данных:
размер требуемой выборки при решении какой-либо задачи статистического анализа на самом деле определяется структурой самой задачи. При четко выраженных группах, классах объектов высокий уровень значимости может быть достигнут уже и при небольших выборках.
Ну, например, если какой-нибудь признак (синий цвет кожи) совершенно определенно задает одно заболевание, а красный цвет - другое, то достаточно 10-15 человек, чтобы это достоверно установить. Однако, если группы размыты, т. е. признак является косвенным, то требуется достаточно большой размер выборки, чтобы установить существование стохастической связи. Поэтому вопрос о том, сколько должно быть объектов без относительно к выборке, достаточно бессмыслен.
Теперь о вопросах, какая классификация лучше. Это зависит от того, насколько она хорошо решает поставленные перед ней задачи. Например, какая классификация более информативна для прогноза поведения? На этот вопрос могут дать ответ статистические методы (допустим, критерий хи-квадрат), а также методы распознавания, которых в настоящее время существует немереное количество. В них тоже существуют свои методы верификации - скользящий контроль, перестановочный тест и др.
Мой совет: перед тем, как собирать данные надо сначала попытаться собрать небольшую выборку и проанализировать ее. И только потом принимать решение о том, сколько информации необходимо для достоверного решения задачи.

gulzatichivyshelnapodmostki