Очень высокие корреляции в данных форекс
У меня проблема регрессии, когда я работаю над прогнозированием будущего изменения цены закрытия определенной пары форекс, главным образом USDJPY, поэтому я сделал следующее:
- Получить исторические данные форекс
USDJPYпара между 2001 и 2017 годами, где она имеет следующие атрибутыOpen, High, Low, Close, Volume(за 15 минут). - Возьмите каждые 50 записей и поместите их в одну запись в следующей последовательности:
X1Open, X1High, X1Low, X1Close, X1Volume .... X50Open, X50High, X50Low, X50Close, X50Volume, (Примечание: 1-е 50 от 1 до 50, 2-е от 2 до 51... и т. Д.) - В мои новые данные добавлен новый атрибут "Наклон", который представляет угол (нормализованный до некоторого значения) линии регрессии будущей цены закрытия в 25 пунктов вперед.
(Don't mind for details it simply represents the Label) - Вычислить двумерную корреляцию Пирсона между всеми переменными в моем новом наборе данных, используя
IBM SPSSискатьmulti-collinearityпроблемы.
Вот проблема, где я обнаружил, что корреляция между любой независимой переменной и другой была равна +1, а корреляция между любой независимой переменной и зависимой переменной "Наклон", как говорили, была -0.12.
Это не имеет никакого смысла, как переменная X1Open например, иметь высокую положительную корреляцию (с +1) с X37High!! И как все независимые переменные могут иметь одинаковое значение корреляции с зависимой переменной (-0.12)?!
- Здесь вы можете найти полные данные после реформирования ~ 500 МБ.
- Вот пример данных в формате Excel 500 записей (используйте формулу CORREL для расчета корреляции, например:
CORREL(B2:B500,C2:C500))
Заранее спасибо.