Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики.
Продолжая посещать сайты проектов вы соглашаетесь с нашей
Политикой в отношении файлов cookie
Если считать по FFT на каждой нитке на всех 64-х нитках, то да.
А так FFT не очень распараллеливается.
Представьте, что FFT на 2^20 элементов исполняется за 20*(2^20) FMA операций. То есть 20 миллионов операций. А ядро может 2*<частота процессора> операций в секунду. 8 млрд FMA на частоте 4Ггц. То есть 2.5 миллисекунды. Что там параллелить — это на один тик исполнения нитки на процессорном ядре.
А сильно отрастить длину FFT бессмысленно — там ошибки округления растут так, что на 2^20 FFT теряется 20-21 бита точности результата. На double числах с 53 бита мантиссой особо длинные FFT теряют смысл.
Задачи не узконаправленные, а умеющие поддержать больше чем 16 ниток. Чем больше будет таких приложений, либо чем больше активных приложений на 2990WX работает, тем эффективней вложения в процессор.
Разве AMD Vega 64 не сливает NVidia GTX 1080 Ti в 1.3 раза при похожей цене? Собственно AMD нужно поднять скорость в 2-3 раза, чтобы снова быть на коне.
Пранкерские видео снимают скрытой камерой. Выходит отлично. Если бы вокруг пранкера было 50 человек с освещением, кинокамерами, то жертва пранкера что-нибудь заподозрила бы.
Правильный вывод: Apple будет покупать электронику Samsung для своих автопилотов. Фанаты Apple будут уверены, что всё что покупает Apple у Samsung разработано в Apple, либо как вариант Samsung долго маялся, и не мог разработать правильную электронику, но как только Apple стал покупать ее у Samsung, то электроника стала наконец правильной.
20% софта пишут для широкораспространённых платформ типа Windows, Android, iOS, и т.п. Однако весь остальной заказной софт — embedded. В нём ассемблер используют для реализации всех возможностей железа, так как тиражи железа — миллионы экземпляров, а избыточной производительности никогда не бывает. Конечно ассемблер не для бизнес-логики, а для оптимизации, и прямого доступа к регистрам в части логики портированной RTOS.
Без большого количества кэша производительность серьезно проседает. Это будет Celeron в исполнении ARM. Просто не будет результата, о котором мечтает ARM.
У Intel кэш память SRAM всегда потребляет, и ее там больше пол-кристалла. Все механизмы OOO сохранившие историю типа BP, тоже потребляют постоянно. У ARM всё это есть чтобы сравнивать?
RISC процессор исполняет одну инструкцию за такт, кроме умножения, деления, чтения/записи памяти, ветвления, операций с плавающей точкой, и т.п.Исполнение инструкций имеет два параметра: темп исполнения схожих инструкций (на одном EU), и задержка выдачи результата.Intel начиная с Pentium конвейеризует исполнение инструкций таким образом, что задержка исполнения может быть больше одного такта, а темп почти для всех популярных инструкций равен 1 такт. В частности умножение имеет темп 1 такт, а задержка 3-4 такта. Таким образом одновременно умножитель может работать с несколькими перемножаемыми числами 32/64 разрядов, находящихся на разной стадии конвейерного умножителя.И в RISC процессоре умножение имеет задержку в несколько тактов. У каждой модели ARM это может быть число от 3 до 6.PS: на ARM ассемблере я писал несколько месяцев код порядка 8000 инструкций оптимизируя их под темп и задержку.Про особенный ARM можно мечтать. Но лучше оперировать фактами, а не мечтами.
> phone addressbook search my_boss
my_boss: phone number +7495nnnnnnn
> phone call +7495nnnnnnn
… calling
А так FFT не очень распараллеливается.
Представьте, что FFT на 2^20 элементов исполняется за 20*(2^20) FMA операций. То есть 20 миллионов операций. А ядро может 2*<частота процессора> операций в секунду. 8 млрд FMA на частоте 4Ггц. То есть 2.5 миллисекунды. Что там параллелить — это на один тик исполнения нитки на процессорном ядре.
А сильно отрастить длину FFT бессмысленно — там ошибки округления растут так, что на 2^20 FFT теряется 20-21 бита точности результата. На double числах с 53 бита мантиссой особо длинные FFT теряют смысл.