1 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Фетісов В.С. Пакет статистичного аналізу даних STATISTICA

Пакеты статистического анализа данных

Пакеты статистического анализа данных.

Рассмотрим и средства статистического анализа, позволяющие построить формальные математические модели процессов (обычно без анализа механизмов функционирования систем) и, при необходимости, осуществить прогноз их поведения при различных сочетаниях влияющих параметров. Это касается также прогнозов на основании временных рядов.

Все программы статистической обработки данных можно разделить на профессиональные, полупрофессиональные (популярные) и специализированные. Статистические программы относятся к наукоемкому программному обеспечению, цена их часто недоступна индивидуальному пользователю. Профессиональные пакеты имеют большое количество методов анализа, популярные пакеты — количество функций, достаточное для универсального применения. Специализированные же пакеты ориентированы на какую-либо узкую область анализа данных.

MS Excel является самым часто упоминаемым и используемым приложением из пакета офисных программ компании Microsoft MS Office. MS Excel широко распространен, имеет русскоязычную версию, тесно интегрирован с MS Word и PowerPoint. При этом, MS Excel — это электронная таблица с достаточно мощными математическими возможностями, где некоторые статистические функции являются просто дополнительными встроенными формулами. Расчеты сделанные при ее помощи не признаются авторитетными, и невозможно построить качественные научные графики. Безусловно, MS Excel хорошо подходит для накопления данных, промежуточного преобразования, предварительных статистических прикидок, для построения некоторых видов диаграмм. Однако окончательный статистический анализ необходимо делать в программах, которые специально созданы для этих целей. Существует макрос-дополнение XLSTAT-Pro http://www.xlstat.com для MS Excel который, включает в себя более 50 статистических функций, включая анализ выживаемости, которых в основных случаях достаточно для обычного применения.

Ранее одним из наиболее популярных пакетов был Statgraphics. В нем удобно сочетаются достаточно мощные средства статистического анализа и визуализации результатов. Собственно этот пакет и сейчас широко используется, причем не только в учебном процессе, но и в научных исследованиях.

В настоящее время из статистических пакетов в России вероятно шире всего используются STATISTICA, STADIA и SPSS. Их популярности способствуют: большое количество реализованных методов; хорошая русификация; наличие учебной и справочной литературы по работе с ними.

Такие пакеты являются универсальными и предназначены для решения широкого круга задач. Универсальные пакеты содержат такие разделы математической статистики, как описательная статистика, парные критерии, анализ факторных эффектов, корреляционный анализ, регрессионный анализ, анализ времен рядов, многомерные методы, методы контроля качества и др.

Парные критерии оценивают различия между двумя совокупностями данных. Типичная задача в этом разделе — определение влияния нововведения, сделанного на предприятии, на результаты работы.
Еще одна важная задача, которую позволяют решать универсальные пакеты, — это прогнозирование, например, курса валют. Все пакеты содержат развитые средства регрессионного анализа.
Многомерные методы — дискриминантный, кластерный, факторный анализы и шкалирование — помогают понять, нет ли какой-либо закономерности или группировки в и множестве объектов. Многомерные методы позволяют по экономическим показателям образовать группы сходных предприятий.

Далее рассмотрим их более подоробно.

Пакет STATISTICA. Производителем программы является фирма StatSoft Inc. (США) http://www.statsoft.com которая выпускает статистические приложения, начиная с 1985 года. Пакет состоит из следующих основных частей:
1) электронные таблицы для ввода исходных данных, а также специальные таблицы для вывода результатов анализа;
2) графическая система для визуализации исходных данных и результатов статистического анализа;

3) набор специализированных статистических модулей;

4) встроенные языки программирования SCL и STATISTICA BASIC, которые позволяют пользователю расширить стандартные возможности системы.

STATISTICA включает большое количество методов статистического анализа (более 250 встроенных функций) объединенных следующими специализированными статистическими модулями: Основные статистики и таблицы, Непараметрическая статистика, Дисперсионный анализ, Множественная регрессия, Нелинейное оценивание, Анализ временных рядов и прогнозирование, Кластерный анализ, Факторный анализ, Дискриминантный функциональный анализ, Анализ длительностей жизни, Каноническая корреляция, Многомерное шкалирование, Моделирование структурными уравнениями и др. Несложный в освоении этот статистический пакет может быть рекомендован для биомедицинских исследований любой сложности.

В настоящее время выпущена версия 7. Российское представительство компании (http://www.statsoft.ru/) предлагает полностью русифицированную 6-ю версию программы. Сайт компании содержит много информации по статистической обработке медицинских данных, учебник по статистике на русском языке.

В пакете STATISTICA имеется большое количество специализированных статистических графиков: гистограмм, графиков для анализа пропущенных данных и определения выбросов, «ящиков с усами» с разнообразными опциями по выбору средней точки и т. д.

Графики позволяют увидеть положение моды, медианы, среднего значения по отношению к максимальному и минимальному значениям.
Графики можно уменьшать, увеличивать, накладывать друг на друга, вращать, определять собственную палитру цветов, добавлять в график текст, рисунки, стрелки. Графики могут автоматически изменяться при изменении связанного с ним файла данных.

Читать еще:  Gempcccid что это за программа?

Пакет STADIA обладает развитой системой контекстной экранной помощи. Программа отечественной разработки с 16-и летней историей. Включает в себя все необходимые статистические функции. Она прекрасно справляется со своей задачей — статистическим анализом. Но. Программа внешне фактически не изменяется с 1996 года. Графики и диаграммы, построенные при помощи STADIA, выглядят в современных презентациях архаично. Цветовая гамма программы (красный шрифт на зеленом) очень утомляет в работе. К положительным качествам программы можно отнести русскоязычный интерфейс и наличие книг описывающих работу.
Специализированные пакеты посвящены решению узкого круга задач.

SPSS (Statistical Package for Social Science). Самый часто используемый пакет статистической обработки данных с более чем 30-и летней историей http://www.spss.com Отличается гибкостью, мощностью применим для всех видов статистических расчетов применяемых в биомедицине. Недавно вышла 13-я англоязычная версия. Существует русскоязычное представительство компании http://www.spss.ru которое предлагает полностью русифицированную версию SPSS 12.0.2 для Windows. Появился учебник на русском языке, позволяющий шаг за шагом освоить возможности SPSS, репетитор по статистике на русском языке, помогающий в выборе нужной статистической или графической процедуры для конкретных данных и задач, а также справка по SPSS Base и SPSS Tables.

Пакет STATGRAPHICS Plus for Windows включает более 250 процедур, применяющихся в бизнесе, экономике, медицине, биологии, социологии, психологии, на производстве и в других предметных областях, генерирует понятные, настраиваемые отчеты. Последняя доступная версия — 5.1. Ее можно получить на сайте http://www.statgraphics.com. Есть возможность скачать демо-версию..
Пакет имеет модульную структуру. Модуль «Контроль качества» предназначен для оценки эффективности производственного процесса. Модуль «Планирование эксперимента» помогает подобрать наилучший план измерений, за счет которого сокращается объем экспериментальных исследований и время их проведения. Модуль «Анализ временных рядов» позволяет выявить сезонные эффекты, циклические изменения, тренды (тенденции), ошибки и выбросы. Модуль «Многомерные методы» предназначен для изучения и раскрытия взаимоотношений множества факторов. С его помощью можно сортировать и группировать данные.
В пакете «Мезозавр» реализована оригинальная система экспертной оценки сложных моделей временных рядов.

STATA. Профессиональный статистический программный пакет с data-management system, который может применятся для биомедицинских целей. Один из самых популярных в образовательных и научных учреждениях США наряду с SPSS. Официальный сайт http://www.stata.com Программа хорошо документирована, издается специальный журнал для пользователей системы.

Для обработки экспериментальных данных разработаны специализированные статистические пакеты:
профессиональные – SAS, BMDP, IMSL (они предназначены в основном для математиков высокой квалификации);

R – язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда научных вычислений с открытым исходным кодом. Имеет множество расширений (пакетов) для научных вычислений. Работает под Windows и Unix/Linux.

Фетісов В.С. Пакет статистичного аналізу даних STATISTICA

Оленець Світлана Юріївна

Викладач кафедри медичної інформатики, медичної та біологічної фізики

Вищий державний навчальний заклад «Українська медична стоматологічна академія», Україна, м.Полтава

Мамаєва Людмила Євгенівна

Студентка 2-го курсу медичного факультету

Вищий державний навчальний заклад «Українська медична стоматологічна академія», Україна, м.Полтава

У медичній статистиці сучасні інформаційні технології застосовуються на кожному етапі розробки і проведення спостережень, а саме: при розробці форм, формуванні плану вибірки, збору і введенні даних, їх обробці та аналізі, а також наданні інформації користувачеві.

Програми комп’ютерної обробки статистичних даних поділяють на професійні, напів-професійні і спеціалізовані. Професійні пакети володіють значною кількістю методів аналізу даних, напів-професійні – мають універсальні функції, а спеціалізовані пакети орієнтуються лише на вузьку область аналізу.

Дана стаття має на меті ознайомити читача з існуючими сучасними програмними додатками, що використовуються для обробки та аналізу результатів медико-біологічних досліджень.

Найбільш популярним додатком для роботи зі статистичними даними є MS Excel. Це табличний процесор з математичними можливостями та статистичними функціями. Цей додаток впорається із задачею накопичення даних, виконанням проміжних обчислень та побудовою нескладних діаграм. Однак він не має засобів для побудови якісних наукових графіків. Тому краще статистичний аналіз даних виконувати в програмах, що призначені саме для таких цілей. Наприклад, можна скористатися макрос-додатком XLSTAT-Pro для MS Excel який, у який вбудовано більше 50 статистичних функцій.

STADIA. Це вітчизняний додаток. Він включає в себе усі необхідні функції для роботи та аналізу статистичних даних. Проте функціональні можливості програми практично не змінилися з 1996 року, а тому графіки та діаграми, побудовані з допомогою додатку, виглядають архаїчно. Колірне співвідношення (червоний шрифт на зеленому фоні) втомлює при тривалій роботі.

SPSS. Використовується найчастіше для статистичної обробки даних. Відрізняється гнучкістю та потужністю. Додаток може бути використаним для різних видів статистичних розрахунків у біомедицині. Є у наявності русифікована версія SPSS 12.0.2 для Windows. Також 2002 року Київським видавництвом «Діасофт» було видано підручник про SPSS під назвою «SPSS 10: Мистецтво обробки інформації. Аналіз статистичних даних і відновлення прихованих закономірностей».

Читать еще:  Мои публикации на компьютерную тематику.

STATA. Професійний статистичний програмний пакет, що може бути використай у біомедичних цілях. Є одним із найпопулярніших додатків серед освітніх та наукових установ США. Для користувачів системи видається спеціальний журнал. Недоліком додатку є те, що немає можливості використання демо-версії.

STATISTICA. Виробником програми є фірма StatSoft Inc. (США), котра працює на ринку статистичних додатків починаючи з 1985 року. STATISTICA вміщує у собі значну кількість методів статистичного аналізу (більш ніж 250 функцій), що об’єднані спеціалізованими статистичними модулями. Даний додаток не є складним в освоєнні, а тому може бути рекомендований для різних біомедичних досліджень. На сьогоднішній день випущена сьома версія. Також пропонується повністю русифікована 6-а версія програми. Сам пакет STATISTICA описаний в декількох книгах, одна з яких, для медичних працівників: О.Ю. Реброва «Статистичний аналіз медичних даних. Застосування пакета прикладних програм STATISTICA.»

JMR. Додаток лідирує на ринку обробки та аналізу статистичних даних. Реалізує цей додаток SAS Institute. Однак особливих переваг для медико-біологічної статистики цей програмний продукт не має.

NCSS. Програма вийшла на ринок 1981 року та розрахована на непрофесіоналів в області статистичної обробки. Інтерфейс системи дещо незвичний у використанні, однак усі дії супроводжуються підказками. Доступна також демо-версія NCSS 11.

SYSTAT. Зазначений додаток призначений для персональних комп’ютерів. Компанія Systat Software має у доробку досить популярні пакети SigmaStat і SigmaPlot, які є відповідно, програмою побудови діаграм (SP) та програмою статистичної обробки (SS). Можна використовувати у комплексі, що дозволяє не лише статистичну обробку а і візуалізацію даних.

STATGRAPHICS PLUS. Ця статистична програма є досить потужною, адже містить у собі більше 250 статистичних функцій. Остання доступна версія — 5.1. Є можливість ознайомлення з допомогою демо-версії. Додаток є досить популярним у вітчизняних дослідників.

MINITAB 14. Є у наявності демо-версія програми, яка працює 30 днів. Даний програмний пакет досить зручний у роботі, має гарний інтерфейс, та реалізує можливості візуалізації результатів роботи.

PRISM. Додаток створений спеціально для біомедичних цілей. Має зрозумілий інтерфейс, що дозволяє швидко проаналізувати дані та побудувати якісні графіки. Додаток включає основні статистичні функції. Однак програма не може повністю замінити серйозні статистичні пакети.

В даний час у мережі Інтернет доступно багато ресурсів, присвячених статистичній обробці даних. Один із них – це статистичний портал, створений за сприяння В. П. Боровикова, автора книг з програмного пакету STATISTICA. На якій програмі зупинити свій вибір? Безумовно, дороговизна програм не дозволяє їх змінювати. Тому має сенс спробувати демо-версію тієї чи іншої програми, розібратися з її можливостями, а потім робити остаточний вибір.

Що стосується можливих рекомендацій, то вони наступні:

1) якщо потрібен потужний, загальновизнаний пакет з простим і зрозумілим навіть початківцям інтерфейсом, краще скористатися SPSS;

2) для початківців і професіоналів, яким потрібна підказка і допоміжна література російською мовою, можна рекомендувати STATISTICA. Це потужна програма з професійними можливостями;

3) для невибагливих користувачів, які обмежуються у своїх дослідженнях стандартними статистичними методами, можна рекомендувати англомовну програму Prism.

Одним з обов’язкових етапів роботи із науковим дослідженням є статистичний аналіз даних. Але тривалий час його могли використовувати тільки фахівці, так як це вимагало серйозної попередньої підготовки. На сьогодні ми маємо безліч доступних і зручних у використанні програмних додатків, що мають змогу у цьому допомогти. Тому не обов’язково мати математичну підготовку. Досить оперувати статистичними поняттями і вміти доцільно вибирати метод аналізу.

ЛІТЕРАТУРА

1. Герасевич В. А. Современное программное обеспечение для статистической обработки биомедицинских исследований / В. А. Герасевич, А. Р. Аветисов // Медицинский журнал. – Минск : Белорусский государственный медицинский университет. – 2005. – № 1.

Методи статистичного аналізу

Для обробки результатів дослідження найчастіше використовують статистичні методи.

Метод статистики, як і будь-який інший науковий метод, ґрунтується на поєднанні аналізу і синтезу. Аналізуючи масові соціально-економічні явища, статистика, з одного боку, виявляє в них схожі риси і відмінності, за якими виокремлює різні групи (типи) явищ, вивчає їх особливості, а з іншого — узагальнює інформацію за цими групами (типами) і в цілому по об’єкту до­слідження.

Соціально-економічні явища динамічні, вони безперервно змінюються і розвиваються. А відтак статистика вивчає їх у розвитку, оцінює інтенсивність динаміки та структурних зрушень, виявляє закономірності розвитку.

Згідно з принципами діалектичної логіки статистика розгля­дає соціально-економічне явище не ізольовано, а в його різно­бічних зв’язках з іншими явищами та зовнішнім середовищем, виявляє фактори, що спричинюють зміни в цих явищах. Але на відміну від. природничих наук, де можна простежити взаємо­зв’язки за допомогою спеціально проведених експериментів, у соціально-економічних дослідженнях спостерігати хід процесу у чистому вигляді неможливо. Статистика замість мікроскопа, радіотелескопа чи інших технічних засобів пізнання, властивих методам природничих наук, застосовує метод наукової абст­ракції. Він означає абстрагування наших уявлень про процеси, що вивчаються, від випадкового, перехідного, одиничного і виділення в них типового, стійкого. Саме завдяки абстракції вдається проникати у внутрішній зміст явищ і процесів, розкри­вати їх сутність. Міра абстракції диктується специфікою пред­мета дослідження і метою дослідження, і

Читать еще:  PsExec: обзор утилиты для удаленного выполнения команд

Особливості статистичної методології пов’язані з точним вимірюванням і кількісним описуванням; масових суспільних явиш, а використанням узагальнюючих показників для характе­ристики об’єктивно існуючих, закономірностей. Можливість отримати; за допомогою статистики об’єктивне відображення дійсності і виявити закономірності, притаманні досліджуваним явищам в даних умовах, пов’язані з особливою природою стати­стичних показників. Вони характеризують не окремі випадки досліджуваного явища, а певним чином окреслені маси, групи, сукупності випадків» Показники, що характеризують масові сус­пільні явища, не можуть бути встановлені безпосереднім вимі­рюванням. Скажімо, не можна безпосередньо виміряти націона­льне багатство чи зовнішньоекономічну позицію країни. Щоб визначити певний статистичний показник, необхідно врахувати велику кількість випадків і узагальнити ці дані. Через те статис­тичні показники називаються узагальнюючимиі завдяки тому,

що спираються не на окремі факти, а на їх сукупність, мають безперечну доказову силу.

Інформація про розміри, пропорції, зміни в часі, інші зако­номірності соціально-економічних явищ створюється, передаєть­ся і зберігається у вигляді статистичних показників. Для органів управління будь-якого рівня — від маленької фірми до компанії- гіганта — статистичні показники мають таке ж саме значення, як зір, слух, дотик і нюх для людини. Спроба управляти суспільни­ми явищами і процесами, не спираючись на статистичні дані, — шлях до соціальної, економічної, екологічної катастрофи .

З філософського погляду статистичний показник — це міра, що поєднує якісне і кількісне відображення певної властивості соціально-економічного явища чи процесу. Якісний зміст показ­ника визначається суттю явища і виявляється у його назві: наро­джуваність, урожайність, прибутковість тощо. Кількісну сторону представляють число та його вимірник. Оскільки соціально-економічні явища вивчаються у конкретних умовах простору і часу, будь-який показник визначається за цими атрибутами. На­приклад, на початок 2004 р. золотовалютні резерви України ста­новили 6,9 млрд. дол.

Показники різняться за своєю аналітичною функцією. Одні характеризують масштаби явищ, другі — структуру сукупності та збалансованість окремих її складових, треті — поширеність явищ чи інтенсивність їхнього розвитку.

Масштаби, розміри соціально-економічних явищ характери­зуються абсолютними величинами, кожна з яких має свою оди­ницю вимірювання: штуки, тонни, кіловати, людино-години гривні тощо. Вибір одиниці вимірювання залежить від природи матеріального змісту явища, конкретних задач практичної доцільності.

Методи обробки та аналізу результатів дослідження – це способи перетворення емпіричних даних, одержаних в ході дослідження, з метою їх змістовного аналізу, перевірки гіпотез та інтерпретації.

Дану групу методів можна розподілити на методи статистичного аналізу інформації (розрахунок розподілу ознак, середніх величин, кореляційний, регресивний, факторний, дисперсійний аналіз), а також методи моделювання та прогнозування.

Для найбільш узагальненого описання статистичних даних використовують середні показники.

Середнє арифметичне обчислюють за формулою:

де і — кількість окремих елементів сукупності;

х — частота проявлення окремої сукупності;

N — кількість членів сукупності (об’єм сукупності).

Середнє арифметичне дозволяє:

— охарактеризувати сукупність, що вивчається, одним числом;

— порівняти окремі величини з середнім арифметичним;

— визначити тенденцію розвитку будь-якого явища;

— порівняти різні сукупності;

— обчислити інші статистичні показники.

Для глибшого професійного аналізу використовують інші методи математичної обробки результатів, які докладно описані в спеціальній літературі.

На етапі інтерпретації широко використовуються методи статистичного аналізу: кореляційний, факторний аналіз, метод імплікаційних шкал та інші.

Кореляційний аналіз — це процедура для вивчення співвідношення між незалежними змінними. Зв´язок між цими величинами виявляється у взаємній погодженості спостережуваних змін. Обчислюється коефіцієнт кореляції. Чим вищим є коефіцієнт кореляції між двома змінними, тим точніше можна прогнозувати значення однієї з них за значенням інших.

Факторний аналіз дає можливість встановити багатомірні зв´язки змінних величин за кількома ознаками. На основі парних кореляцій, отриманих у результаті кореляційного аналізу, одержують набір нових, укрупнених ознак — факторів. У результаті послідовної процедури отримують фактори другого, третього та інших рівнів. Факторний аналіз дає змогу подати отримані результати в узагальненому вигляді.

Метод імплікаційних шкал — це наочна форма виміру та оцінки отриманих даних, які градуюються за кількістю або інтенсивністю ознак. Шкали класифікуються за типами або рівнем виміру. Прості шкали дають однозначну оцінку тієї чи іншої ознаки. Серію шкал (так звану батарею) можна перетворити в єдину шкалу значень окремих ознак. Ця процедура називається шкалюванням .

Ссылка на основную публикацию
Статьи c упоминанием слов:
Adblock
detector