5 курс, спец. «Економічна кібернетика», д/ф, Науковий керівник – Косяченко С.В., Чернівецький торговельно-економічний інститут КНТЕУ, м.Чернівці
Кореляційний аналіз взаємозв’язку відвідуваності сайтів Інтернет-магазину та об’єму продажів
Задачею роботи є вивчення кореляційного зв’язку між відвідуваністю сайтів Інтернет-магазину та кількістю проданих товарів у грошовому вимірі. Цей зв’язок не є лінійним і залежить від багатьох факторів. Обчислення коефіцієнтів здійснювалось з використанням пакету обробки статистичних даних R.
Для забезпечення успішного функціонування Інтернет-магазинів в Україні необхідно залучити інвесторів. Для цього доцільно дати оцінку ефективності реального інвестування таких об’єктів. Від того наскільки об’єктивно й докладно проведена ця оцінка, залежать терміни повернення вкладеного капіталу й темпи розвитку підприємства. Серед науковців, які розробляли економічні підходи та методи інвестування в такі види діяльності, слід згадати роботи А. Л. Бабосюка [1], В. М. Гриньової [2], серед зарубіжних – П. Л. Вілінського [3], Ф. Фабоцці [4], В. В. Царьова [5], У. Шарпа [6] та інших. В основу методів оцінки ефективності реального інвестування, які використовуються сьогодні в Україні, покладено два показники – коефіцієнт ефективності (відношення середньорічної суми прибутку до суми капітальних вкладень) та термін окупності (обернений йому показник). Проте вони мають ряд суттєвих недоліків, які не дозволяють отримати об’єктивну оцінку ефективності реальних інвестицій: при розрахунках цих показників не враховується фактор часу; показником повернення інвестованого капіталу приймається тільки прибуток, але в реальній практиці інвестиції повертаються у вигляді грошового потоку (що штучно занижує коефіцієнт ефективності й завищує термін окупності). Таким чином вказані показники дають лише односторонню оцінку ефективності інвестиційного проекту, оскільки ґрунтуються на використанні однакових вихідних даних (суми прибутку і суто інвестицій – не враховані інші вищевказані фактори). У зарубіжній практиці при оцінці ефективності реальних інвестицій дотримуються інших принципів: оцінки повернення інвестованих коштів на базі показника грошового потоку; обов’язкового зведення до реальної вартості як інвестованих коштів, так i сум грошового потоку. Детальна оцінка ефективності реального інвестування Internet-магазинів має ряд особливостей, і це питання потребує окремого вивчення. Одним із показників, які дозволяють оцінити успішність такого інвестиційного проекту як Інтернет-магазин є об’єм отриманого прибутку який, в свою чергу, залежить від кількості відвідувань сайту магазину. Задачею роботи є виявлення особливостей взаємозв’язку цих показників. Коефіцієнт кореляції ® – це показник ступеню взаємозв’язку між двома змінними. Він являє собою безрозмірну величину, яка змінюється від −1 до +1. При незалежному варіюванні змінних, коли зв’язок між ними відсутній, r=0. Чим сильніше зв’язок, тим більше величина коефіцієнту кореляції. При цьому позитивні значення r вказують на позитивний зв’язок, а від’ємні – відповідно на обернений зв’язок (при зростанні однієї змінної друга зменшується). Обчислимо коефіцієнт кореляції в R, загрузивши дані напряму із сайту Інтернет-магазину.
dat <- read.delim("http://myhost/media/download/923/987")
head(dat)
Верхня частина аналізованої таблиці, після виконання цих команд, має такий вигляд:
№ Month Vidvidan(vden) Vyruchka(grn) 1 May 149 36 2 May 140 30 3 May 130 331 4 May 140 110 5 May 120 4 6 May 140 171
Графічний аналіз даних підтверджує наявність позитивного зв’язку між відвідуваністю та виторгом магазину (рис.1), але наскільки сильний цей зв'язок? Дати відповідь на це запитання допоможе коефіцієнт кореляції. Почнемо з коефіцієнта кореляції Пірсона (Pearson correlation coefficient), який обчислюється по формулі:
Рис.1 Взаємозв’язок виручки та відвідуваності сайту Інтернет-магазину
Оскільки використовувався пакет статистичного аналізу R, то проводити обчислення вручну немає необхідності. В R коефіцієнт кореляції Пірсона, а також ряд других коефіцієнтів, можна легко обчислити за допомогою функцій cor() і cor.test(). Різниця між цими двома функціями полягає в тому, що cor() дозволяє обчислити тільки сам коефіцієнт кореляції, тоді як cor.test() виконує ще й оцінку статистичної значимості коефіцієнта, перевіряючи нульову гіпотезу про рівність його нулю. Тому використовувалась саме друга функцію: > cor.test(Vidvidan, Vyruchka)
Pearson's product-moment correlation
data: Vidvidan and Vyruchka t = 11.4964, df = 474, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.3935877 0.5343949 sample estimates: cor 0.466946 Як видно, обчислений коефіцієнт кореляції Пірсона виявився рівним 0.467. Не дивлячись на те, що він не дуже високий, цей коефіцієнт статистично значимо відрізняється від нуля (p-value < 2.2e-16). Для зручності, програма також автоматично обчислила 95%-ний довірчий інтервал для отриманого коефіцієнта кореляції (95 percent confidence interval: 0.394 – 0.534). Але потрібно згадати, що коефіцієнт кореляції Пірсона базується на таких важливих допущеннях: 1. Обидві аналізовані змінні розподілені нормально 2. Зв’язок між цими змінними лінійний Приведений рисунок (рис.2) показує, що як мінімум умова нормальності розподілу не виконується:
Рис.2 Частотна залежність розміру денної виручки
Для виправлення ситуації можна спробувати логарифмувати обидві змінні, тобто і Vidvidan і Vyruchka. Для перетворених змінних коефіцієнт кореляції Пірсона визначається так: cor.test(log(Vidvidan +1), log(Vyruchka))
Pearson's product-moment correlation
data: log(Vidvidan + 1) and log(Vyruchka) t = 21.5166, df = 474, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.6543961 0.7456953 sample estimates: cor 0.7029297
Тепер видно, що нове значення коефіцієнта кореляції значно виросло (0.703 проти 0.467). І все ж, не дивлячись на логарифмування, значення інтенсивності виручки не підкоряється нормальному розподілу. Показати це можна як графічно (рис.3),
Рис.3 Частотна залежність логарифму від розміру денної виручки
так і за допомогою тесту Шапіро-Уїлка: shapiro.test(log(Vidvidan +1))
Shapiro-Wilk normality test
data: log(Vidvidan + 1) W = 0.9508, p-value = 1.734e-11
Для ненормально розподілених змінних, а також при наявності нелінійного зв'язку між змінними, слід використовувати непараметричний коефіцієнт кореляції Спірмена (Spearman correlation coefficient). На відміну від коефіцієнта Пірсона, цей варіант коефіцієнта кореляції працює не з вихідними значеннями змінних, а з їхніми рангами (формула при цьому використовується та сама, що і для коефіцієнта Пірсона). Для обчислення коефіцієнта Спірмена в R при викликові функції cor.test() необхідно скористатись аргументом method із значенням "spearman":
cor.test(Vidvidan, Vyruchka, method = "spearman")
Spearman's rank correlation rho
data: Vidvidan and Vyruchka S = 6574110, p-value < 2.2e-16 alternative hypothesis: true rho is not equal to 0 sample estimates: rho 0.6342627
Warning message: In cor.test.default(Vidvidan, Vyruchka, method = "spearman") : Cannot compute exact p-values with ties
Коефіцієент кореляції Спірмена становить 0.634 і виявляється статистично значимим (Р << 0.001). Оскільки в даних мають місце значення з однаковими рангами (ties), програма не змогла розрахувати точне Р-значення, про що попередила у повідомленні "Warning message: ... Cannot compute exact p-values with ties". В зв’язку з тим, що коефіцієнт кореляції Спірмена працює з рангами, довільне перетворення початкових даних ніяк не впливоє на його значення. Наприклад, після логарифмування отримується результат, ідентичний попередньому: Висновки. Рівень і динаміка продажів – найбільш важливі показники успішності електронної торгівлі. Проте вони не завжди дають можливість зрозуміти, наскільки ефективно працює сайт, за допомогою якого здійснюється торгівля, і якою мірою використовується весь потенціал сайту для реалізації і зростання продажів. Для виявлення прихованих потенціалів і «вузьких місць» сайту електронної торгівлі рекомендується вивчати статистику його відвідуваності. Для ненормально розподілених змінних, а також при наявності нелінійного зв'язку між змінними, слід використовувати непараметричний коефіцієнт кореляції Спірмена
Список використаних джерел: 1. Бабосюк А. Л. Економічні підходи до обґрунтування інвестицій у мультисервісні мережі / А. Л. Бабосюк, С. М. Конініна, І. В. Тесля. – [Електронний ресурс]. – Режим доступу: http://www.donetsk.ukrtelecom.ua/ua/about/nauk/st18.php 2. Гриньова В. М. Проблеми розвитку інвестиційної діяльності / В. М. Гриньова, В. О. Коюда, Т. І. Лепейко, О. П. Коюда : [монографія] / [за заг. ред. В. М. Гриньової]. – Харків : ВД "ІНЖЕК", 2002. – 464 с. 3. Вилинский П. Л. Оценка эффективности инвестиционных проектов: Теория и практика / П. Л. Вилинский, В. Н. Лившиц, С. А. Смоляк. – М. : Дело, 2004. – 888 с. 4. Царев В. В. Оценка экономической эффективности инвестиций / В. В. Царев. – СПб. : Питер, 2004. – 464 с. 5. Фабоцци Ф. Управление инвестициями / Ф. Фабоцци : [пер. с англ.] – М. : ИНФРА-М, 2000. – 932 с. 6. Шарп У. Инвестиции : [пер. с англ.] / У. Шарп, Г. Александер, Дж. Бейли. – М. : ИНФРА – М, 2003. – 1028 с.