Если Вас интересуют результаты, которые не по зубам Intel'у, то познакомьтесь, пожалуйста, с представленной ниже информацией.
Разработан новый комплекс алгоритмов диагонализации плотных вещественных симметричных матриц. этот комплекс (SDIAG) имеет ряд важных преимуществ по сравнению с другими известными пакетами, в которых реализованы алгоритмы диагонализации:
1.заметное увеличение скорости расчетов;
2.значительная экономия оперативной памяти (шестикратный разрыв при нахождении всех собственных векторов и восьмикратный при нахождении части собственных векторов между всеми точными быстродействующими современными методами диагонализации и предложенными мною алгоритмами).
Идея этой разработки основывается на значительно возросшей скорости процессоров при значительных ограничениях на объемы оперативной памяти, а также на неудовлетворительных результатах современных пакетов, в которых реализованы алгоритмы диагонализации.
Новый алгоритм частично основан на исходном коде из замечательного пакета LAPACK. Сравнение производилось с известным пакетом Intel MKL, т.к. в нем реализованы алгоритмы из LAPACK'а.
Достигнуты следующие результаты:
1. Найден новый подход к решению алгебраической проблемы собственных значений и собственных векторов для трехдиагональных матриц, который позволил увеличить скорость и привел к значительной экономии оперативной памяти.
2. Разработан новый алгоритм матричного умножения, который позволил увеличить скорость перехода от матрицы собственных векторов трехдиагональной матрицы к матрице собственных векторов исходной матрицы.
3. Модифицирован алгоритм Pal-Walker-Kahan'а, который позволил увеличить скорость нахождения собственных значений трехдиагональной матрицы в несколько раз в случае медленной сходимости.
4. Применены блочные методы к упакованным матрицам, что привело к увеличению скорости трехдиагонализации упакованных матриц почти в 3 раза и к увеличению скорости перехода от матрицы собственных векторов трехдиагональной матрицы к матрице собственных векторов исходной упакованной матрицы в 8 раз.
5. Усовершенствованная реализация базовых алгоритмов линейной алгебры позволила увеличить скорость BLAS2 (умножение матрицы на вектор) для IA32 и EM64T и BLAS3 (перемножение матриц)для IA32.
Например, скорость моей диагонализации на одном ядре превышает скорость самых быстрых и надежных алгоримов диагонализации Intel MKL на двух ядрах и позволяет диагонализировать плотную вещественную симметричную матрицу 22000*22000 с 2 GB оперативной памяти для IA32 и матрицу 31000*31000 с 4 GB оперативной памяти для EM64T.
Применение разработанного алгоритма диагонализации описано в публикациях [9-11], опубликованных на странице, посвященной процессору P4:
http://www.thesa-store.com/products