Izot_NNSTU's blog

By Izot_NNSTU, 12 years ago, In Russian

По учёбе возникла такая задачка, есть заданная таблицей функция f(t), строго говоря, равноотстоящий временной ряд. Информации много, десятки миллионов значений. Нужно находить определённым образом "похожие" участки этого временного ряда, причём участки небольшой фиксированной длины L (L порядка 10-40). С ходу придумал следующий алгоритм: заводим множество "кластеров", изначально оно пустое. Затем каждый следующий кусочек нужной длины пытаемся засунуть во все кластеры. Мы можем это сделать, если он подходит по определённым критериям, т. е. похож на объекты в кластере (сейчас я использую просто среднеквадратичное отклонение). Если "объект" не совпал ни с одним из кластеров, создаём новый кластер с единственным объектом в нём.

У этого метода много недостатков, но самое главное: считается всё по несколько часов. Я знаю, многие здесь работают в проектах, связанных с анализом данных и т. п. Знатоки, пожалуйста, подкиньте пару идей, а ещё лучше помогите найти хорошую литературу по моей разновидности кластерного анализа (можно на английском).

  • Vote: I like it
  • +11
  • Vote: I do not like it