SPEC CPU2000. Часть 20. Компиляторы Intel C++/Fortran Compiler 9.0, процессоры Intel Pentium 4 670, Pentium M 770 и AMD Athlon 64 FX-57

В середине июня компания Intel представила новую, девятую версию своих компиляторов C++ и Fortran. Новую версию компиляторов нельзя назвать принципиально иной по сравнению с предыдущей версией 8.1, ее основные особенности это интеграция компиляторов для платформ IA-32, IA-64 и EM64T (x86-64) в единый пакет, а с точки зрения оптимизации кода дополнительные опции для процессоров с технологией Hyper-Threading и многоядерных процессоров, в частности, спекулятивной загрузки данных из памяти в отдельно создаваемом потоке (Software-based Speculative Pre-Computation, SSP).

В настоящей статье мы рассмотрим, насколько эффективна в плане скорости новая версия компиляторов по сравнению с предыдущей на топовых (или почти топовых) одноядерных процессорах как Intel (Pentium 4 и Pentium M), так и… AMD (Athlon 64 FX-57 разумеется, с некоторой «доработкой» кода, о чем ниже).

Использовались следующие версии компиляторов:

Intel(R) C++ Compiler for 32-bit applications, Version 9.0 Build 20050624Z Package ID: W_CC_C_9.0.020
Intel(R) Fortran Compiler for 32-bit applications, Version 9.0 Build 20050624Z Package ID: W_FC_C_9.0.019

В качестве «эталона сравнения» использовался код тестов, откомпилированный ранее с помощью Intel C++ Compiler 8.1.022 и Intel Fortran Compiler 8.1.025.

Во всех случаях (компиляторы версий 8.1 и 9.0, различные варианты оптимизации кода), как обычно, использовались одинаковые общие ключи компиляции кода:

PASS1_CFLAGS= -Qipo -O3 -Qprof_gen
PASS2_CFLAGS= -Qipo -O3 -Qprof_use

Pentium 4 670

Начнем с результатов «родного» для компиляторов процессора Pentium 4 670 (частота 3.8 ГГц) с ядром Prescott, поддерживающего все необходимые наборы инструкций и позволяющего запускать код, откомпилированный со всеми возможными ключами специфических оптимизаций: -QxK, -QxW, -QxN, -QxB и -QxP.

	Без опт.		-QxK		-QxW		-QxN		-QxB		-QxP
	ic8.1	ic9.0	ic8.1	ic9.0	ic8.1	ic9.0	ic8.1	ic9.0	ic8.1	ic9.0	ic8.1	ic9.0
164.gzip	1150	1130 (-1.7%)	1253	1239 (-1.1%)	1255	1248 (-0.6%)	1265	1251 (-1.1%)	-	1247	1267	1241 (-2.1%)
175.vpr	x	x	1207	1201 (-0.5%)	1290	1283 (-0.5%)	1288	1272 (-1.2%)	-	1255	1286	1270 (-1.2%)
176.gcc	x	x	2142	2119 (-1.1%)	2132	2122 (-0.5%)	2146	2125 (-1.0%)	-	2116	2155	2116 (-1.8%)
181.mcf	1595	1594 (-0.1%)	1599	1599 (0.0%)	1598	1600 (0.1%)	2125	2125 (0.0%)	-	2113	2131	2115 (-0.8%)
186.crafty	1251	1260 (0.7%)	1272	1285 (1.0%)	1371	1398 (2.0%)	1375	1406 (2.3%)	-	1387	1387	1389 (0.1%)
197.parser	1553	1030 (-33.7%)	1562	1031 (-34.0%)	1562	1026 (-34.3%)	1560	1025 (-34.3%)	-	1019	1560	1031 (-33.9%)
252.eon	1640	1762 (7.4%)	1795	1836 (2.3%)	2188	2153 (-1.6%)	2391	2360 (-1.3%)	-	2101	2359	2320 (-1.7%)
253.perlbmk	1997	2021 (1.2%)	1954	2015 (3.1%)	1923	2012 (4.6%)	1940	1991 (2.6%)	-	2018	1947	2006 (3.0%)
254.gap	2033	2110 (3.8%)	1936	1990 (2.8%)	2019	2035 (0.8%)	2022	2061 (1.9%)	-	2029	2032	2049 (0.8%)
255.vortex	2876	2941 (2.3%)	2871	2971 (3.5%)	2869	2970 (3.5%)	2854	2970 (4.1%)	-	2852	2833	2948 (4.1%)
256.bzip2	1423	1428 (0.4%)	1390	1399 (0.6%)	1378	1372 (-0.4%)	1360	1348 (-0.9%)	-	1354	1372	1415 (3.1%)
300.twolf	1867	1526 (-18.3%)	1840	1880 (2.2%)	1859	1898 (2.1%)	1865	1910 (2.4%)	-	1879	1869	1908 (2.1%)
SPECint_base2000	1682	1604 (-4.6%)	1682	1642 (-2.4%)	1734	1687 (-2.7%)	1790	1739 (-2.8%)	-	1708	1792	1739 (-3.0%)

168.wupwise	1882	1843 (-2.1%)	2031	2074 (2.1%)	2235	2304 (3.1%)	2198	1735 (-21.1%)	-	1762	2860	2914 (1.9%)
171.swim	2089	2088 (0.0%)	2362	2544 (7.7%)	2524	2596 (2.9%)	2525	2595 (2.8%)	-	2553	2526	2595 (2.7%)
172.mgrid	1022	1023 (0.1%)	1237	1216 (-1.7%)	1518	1511 (-0.5%)	1674	1661 (-0.8%)	-	1306	1675	1661 (-0.8%)
173.applu	1419	1438 (1.3%)	1404	1414 (0.7%)	1481	1472 (-0.6%)	1655	1670 (0.9%)	-	1555	1638	1691 (3.2%)
177.mesa	1399	1371 (-2.0%)	1496	1476 (-1.3%)	1666	1669 (0.2%)	1662	1668 (0.4%)	-	1574	1659	1653 (-0.4%)
178.galgel	1445	1440 (-0.3%)	3036	3119 (2.7%)	3581	3637 (1.6%)	3564	3866 (8.5%)	-	3626	3603	3889 (7.9%)
179.art	2716	2356 (-13.3%)	2370	2393 (1.0%)	2918	2613 (-10.5%)	2987	2655 (-11.1%)	-	2524	4648	4597 (-1.1%)
183.equake	2074	2105 (1.5%)	2143	2118 (-1.2%)	2155	2154 (0.0%)	2158	2148 (-0.5%)	-	2092	2156	2420 (12.2%)
187.facerec	1736	1773 (2.1%)	2035	2148 (5.6%)	2049	2151 (5.0%)	2037	2165 (6.3%)	-	2114	2075	2179 (5.0%)
188.ammp	1305	1226 (-6.1%)	1240	1213 (-2.2%)	1365	1345 (-1.5%)	1371	1346 (-1.8%)	-	1210	1369	1346 (-1.7%)
189.lucas	2109	2101 (-0.4%)	2007	2025 (0.9%)	2285	2320 (1.5%)	2279	2331 (2.3%)	-	1984	2302	2306 (0.2%)
191.fma3d	1316	1342 (2.0%)	1291	1342 (4.0%)	1600	1648 (3.0%)	1581	1683 (6.5%)	-	1371	1606	1646 (2.5%)
200.sixtrack	604	606 (0.3%)	597	605 (1.3%)	678	754 (11.2%)	679	746 (9.9%)	-	621	683	748 (9.5%)
301.apsi	1309	1277 (-2.4%)	1317	1301 (-1.2%)	1386	1370 (-1.2%)	1408	1357 (-3.6%)	-	1300	1410	1357 (-3.8%)
SPECfp_base2000	1511	1489 (-1.5%)	1636	1657 (1.3%)	1826	1842 (0.9%)	1854	1845 (-0.5%)	-	1690	1956	2007 (2.6%)

Но начнем, тем не менее, с неоптимизированного варианта. Сразу отметим одну важную деталь: эта версия кода, откомпилированная как предыдущей, так и новой версией компилятора, вызывала ошибки в подтестах 175.vpr и 176.gcc независимо от типа используемого процессора. В связи с чем, мы использовали --noreportable вариант запуска тестов, позволяющий игнорировать ошибки в отдельных подтестах (--ignore_errors). Итак, целочисленные тесты. Новая версия позволяет получить некоторое преимущество в ряде подтестов (252.eon, 253.perlbmk, 254.gap, 255.vortex), которое, однако, невозможно компенсировать значительным снижением производительности 197.parser (порядка 34%!), а также 300.twolf. В результате имеем общую оценку SPECint_base2000 = 1604, на 4.6% уступающую оценке, полученной с версией 8.1 (1682). В тестах с вещественными числами новая версия позволяет получить лишь едва заметное преимущество по скорости в ряде подтестов, но и здесь не обошлось без заметного снижения скорости отдельных подтестов (13.3% в 179.art). В результате, общая оценка SPECfp_base2000 (1489) на 1.5% уступает результату, полученному с предыдущей версией (1511).

Следующий вариант оптимизации, использующий инструкции SSE (-QxK). В целочисленных тестах наблюдаем аналогичную картину незначительное преимущество новой версии в некоторых подтестах при 1.5-кратном снижении производительности 197.parser. Тем не менее, 300.twolf в этом случае отличается не только не худшей, но и даже лучшей производительностью (2.2%). Интегральная оценка примерно на 2.5% ниже по сравнению с версией 8.1. Совсем по-другому обстоит дело в тестах с плавающей точкой производительность большинства задач возрастает при переходе к версии 9.0, максимальный прирост наблюдается в подтестах 171.swim (7.7%) и 187.facerec (5.6%). Интегральный показатель SPECfp_base2000 на 1.3% выше по сравнению с предыдущей версией.

Что касается остальных вариантов оптимизации кода (-QxW, -QxN и -QxP), в целочисленных тестах картина оказывается похожей на вариант -QxK: по-прежнему наблюдаем 1.5-кратное падение производительности 197.parser и, как следствие, несколько меньший интегральный показатель SPECint_base2000. В тестах с плавающей точкой между указанными вариантами оптимизации наблюдаются различия как в интегральном показателе, так и в отдельных подтестах. Так, в варианте SSE2/Willamette (-QxW) заметен прирост в 200.sixtrack (11.2%) и 187.facerec (5.0%) при значительном снижении скорости 179.art (-10.5%). По SPECfp_base2000 новая версия выигрывает всего 0.9%. Вариант SSE2/Northwood (-QxN) по общей оценке, напротив, несколько проигрывает предыдущей версии (на 0.5%), благодаря значительному падению в скорости 168.wupwise (-21.1%) и том же 179.art (-11.1%) при некотором приросте в целом ряде подтестов (178.galgel, 187.facerec, 191.fma3d и 200.sixtrack). Наконец, «родной» для Prescott SSE3-вариант -QxP выигрывает 2.6% по общему показателю благодаря увеличению производительности задач 178.galgel (7.9%), 183.equake (12.2%), 187.facerec (5.0%) и 200.sixtrack (9.5%) при практически незаметном снижении скорости выполнения немногих других подтестов (максимальном 3.8% в 300.aspi).

Абсолютная производительность как целочисленных, так и вещественных задач в целом (по интегральным показателям) возрастает в ряду -QxK < -QxB < -QxW < -QxN < -QxP, что вполне разумно для ядра Prescott.

Pentium M 770

Переходим ко второму «почти флагману» Intel процессору Pentium M 770 с тактовой частотой ядра Dothan 2.13 ГГц. Тесты с участием этого процессора проводились на «десктопно-мобильной» системе материнской плате DFI 855GME-MGF с не самым быстрым чипсетом Intel 855GM, а точнее не самой быстрой подсистемой памяти (одноканальной DDR-333).

	Без опт.		-QxK		-QxW		-QxN		-QxB
	ic8.1	ic9.0	ic8.1	ic9.0	ic8.1	ic9.0	ic8.1	ic9.0	ic8.1	ic9.0
164.gzip	1143	1091 (-4.5%)	1248	1245 (-0.2%)	1236	1238 (0.2%)	1247	1246 (-0.1%)	-	1251
175.vpr	x	x	1321	1316 (-0.4%)	1367	1381 (1.0%)	1364	1377 (1.0%)	-	1361
176.gcc	x	x	1822	1805 (-0.9%)	1805	1803 (-0.1%)	1825	1806 (-1.0%)	-	1814
181.mcf	1042	1059 (1.6%)	1054	1052 (-0.2%)	1051	1047 (-0.4%)	1504	1507 (0.2%)	-	1507
186.crafty	1320	1303 (-1.3%)	1312	1313 (0.1%)	1455	1460 (0.3%)	1455	1456 (0.1%)	-	1631
197.parser	1381	1004 (-27.3%)	1392	1002 (-28.0%)	1392	990 (-28.9%)	1388	1008 (-27.4%)	-	1001
252.eon	1589	1736 (9.3%)	1688	1668 (-1.2%)	1922	1930 (0.4%)	2096	2066 (-1.4%)	-	2127
253.perlbmk	1724	1716 (-0.5%)	1736	1755 (1.1%)	1750	1775 (1.4%)	1752	1760 (0.5%)	-	1811
254.gap	1163	1282 (10.2%)	1151	1168 (1.5%)	1280	1302 (1.7%)	1282	1298 (1.2%)	-	1337
255.vortex	2456	2484 (1.1%)	2492	2497 (0.2%)	2466	2492 (1.1%)	2491	2488 (-0.1%)	-	2482
256.bzip2	1225	1238 (1.1%)	1156	1178 (1.9%)	1196	1176 (-1.7%)	1192	1178 (-1.2%)	-	1205
300.twolf	2102	1823 (-13.3%)	2111	2149 (1.8%)	2223	2252 (1.3%)	2220	2256 (1.6%)	-	2241
SPECint_base2000	1459	1416 (-2.9%)	1489	1453 (-2.4%)	1544	1507 (-2.4%)	1605	1564 (-2.6%)	-	1591

168.wupwise	1249	1264 (1.2%)	1327	1356 (2.2%)	1133	1145 (1.1%)	1149	1045 (-9.1%)	-	1285
171.swim	713	722 (1.3%)	854	782 (-8.4%)	841	822 (-2.3%)	845	821 (-2.8%)	-	821
172.mgrid	777	786 (1.2%)	835	839 (0.5%)	817	829 (1.5%)	818	820 (0.2%)	-	842
173.applu	612	617 (0.8%)	631	638 (1.1%)	611	608 (-0.5%)	701	703 (0.3%)	-	729
177.mesa	898	906 (0.9%)	1379	1506 (9.2%)	1578	1570 (-0.5%)	1579	1552 (-1.7%)	-	1651
178.galgel	1753	1694 (-3.4%)	2499	2503 (0.2%)	2224	2237 (0.6%)	2218	2428 (9.5%)	-	2803
179.art	2600	2495 (-4.0%)	2388	2360 (-1.2%)	2472	2437 (-1.4%)	2645	2575 (-2.6%)	-	2634
183.equake	888	906 (2.0%)	905	901 (-0.4%)	898	898 (0.0%)	900	899 (-0.1%)	-	900
187.facerec	1165	1156 (-0.8%)	1244	1274 (2.4%)	1237	1275 (3.1%)	1252	1273 (1.7%)	-	1268
188.ammp	1019	980 (-3.8%)	983	968 (-1.5%)	922	905 (-1.8%)	904	891 (-1.4%)	-	963
189.lucas	799	809 (1.3%)	793	791 (-0.3%)	891	899 (0.9%)	895	898 (0.3%)	-	897
191.fma3d	808	821 (1.6%)	801	812 (1.4%)	829	840 (1.3%)	839	853 (1.7%)	-	845
200.sixtrack	542	540 (-0.4%)	533	513 (-3.8%)	464	474 (2.2%)	452	475 (5.1%)	-	528
301.apsi	916	903 (-1.4%)	916	913 (-0.3%)	851	853 (0.2%)	856	846 (-1.2%)	-	902
SPECfp_base2000	963	960 (-0.3%)	1038	1038 (0.0%)	1015	1018 (0.3%)	1031	1030 (-0.1%)	-	1085

Целочисленные тесты без оптимизации кода: наибольший прирост в новой версии наблюдается в 254.gap (~10%), наиболее сильное падение во все том же 197.parser (по сравнению с Pentium 4, оно несколько меньше порядка 27%). Суммарная оценка SPECint_base2000 уступает предыдущей версии в среднем на 3%. В тестах с плавающей точкой наблюдается небольшой разброс значений как в большую, так и в меньшую сторону, однако по интегральной оценке скорость выполнения кода, откомпилированного ICC/IFC 8.1 и 9.0, практически совпадает. Удивляют весьма низкие абсолютные оценки отдельных подтестов и общего показателя SPECfp_base2000 по сравнению с результатами Pentium 4 при несильном отставании от него по целочисленным тестам. По-видимому, это связано с требовательностью этих тестов к пропускной способности памяти, которая в случае системы на базе Pentium M с одноканальной DDR-333 заметно ниже (2.67 против 6.4 ГБ/с). Но уж точно не блоком FPU, который в Pentium M реализован не только не хуже, но и намного лучше по сравнению с Pentium 4.

Использование ключей оптимизации (для данного процессора доступны -QxK, -QxW, -QxN и -QxB) не приводит к существенному изменению картины, за исключением увеличения общей производительности (которая, заметим, возрастает именно в указанном ряду, то есть «родная» оптимизация кода под ядро Banias оказывается наилучшей и для ядра Dothan). Целочисленные тесты по-прежнему немного (примерно на 2.5%) уступают предыдущей версии (благодаря заметно сниженной производительности 197.parser при одновременном отсутствии ощутимого выигрыша в остальных подтестах), а тесты с вещественными числами практически равны ей по скорости. Но последнее вновь достигается не за счет полной идентичности результатов каждого подтеста, а за счет наличия разброса величин как в большую, так и в меньшую сторону (особенно заметного в вариантах -QxK и -QxN до 10% в ряде подтестов), в итоге компенсирующего самого себя.

Athlon 64 FX-57

И напоследок самое интересное! Результаты тестов компиляторов Intel C++/Fortran Compiler 8.1/9.0 на последнем одноядерном процессоре конкурента AMD Athlon 64 FX-57. Вы спросите, как нам это удалось? Все очень просто для этого оказалось достаточно разобраться в алгоритме проверки типа процессора кодом приложения, откомпилированного с помощью компиляторов Intel. Схематически, выглядит она следующим образом:

1. Проверка Vendor String процессора на соответствие «GenuineIntel»;

2. Определение типа модели процессора (Pentium III/Pentium M модель 6, или Pentium 4/Xeon модель 15);

3. Определение наличия необходимых расширенных наборов инструкций (SSE, SSE2, SSE3).

Исходя из этой схемы и простого анализа становится совершенно очевидно, что достаточно убрать проверку №1, и код, откомпилированный Intel C++/Fortran Compiler, станет работоспособным и на процессорах конкурента при условии, что процессор поддерживает нужные наборы инструкций. Связано это с тем, что номера моделей у процессоров Intel и AMD, к счастью, совпадают: модели 6 соответствуют процессоры класса AMD K7 (большинство из которых поддерживают SSE), а модели 15 процессоры AMD K8 (поддерживающие SSE, SSE2, а в последней ревизии ядра E и SSE3). Впрочем, если бы этого совпадения и не было, нам ничего не мешало бы убрать и проверку №2. Тогда работоспособность приложения зависела бы только от наличия/отсутствия в процессоре необходимых расширений.

«Исправление» бинарных файлов можно осуществлять вручную, однако для этой цели мы написали небольшую вспомогательную утилиту ICC Patcher (скачать ее можно отсюда). Она просматривает бинарный файл на предмет «подозрительных» проверок соответствия на GenuineIntel и заменяет все эти проверки пустыми операциями NOP. Заметим, что этим патчером можно «исправлять» не только готовые exe-файлы, но и исходные библиотеки Intel C++/Fortran Compiler, в том числе для EM64T. Тогда в результате компиляции всегда будут получаться программы, работоспособные как на процессорах Intel, так и AMD. Причем, повторим, такой патчинг не является «грубым» например, код, откомпилированный с ключом -QxP, запустится только на процессорах AMD Athlon64/Opteron с ревизией ядра E, и выдаст корректное предупреждение о невозможности продолжения работы на более ранних ревизиях ядра и на процессорах класса AMD K7.

Но перейдем к результатам тестов. Из соображений экономии времени, мы решили не перекомпилировать заново все исходники тестов с «правильными» файлами библиотек Intel, а «исправить» уже имеющиеся бинарные файлы. В связи с этим, в config-файлах тестов выставлялась опция check_md5=0, ибо нетрудно догадаться, что «исправление» исполняемых файлов изменяет их контрольную сумму.

	Без опт.		-QxK		-QxW		-QxN		-QxB		-QxP
	ic8.1	ic9.0	ic8.1	ic9.0	ic8.1	ic9.0	ic8.1	ic9.0	ic8.1	ic9.0	ic8.1	ic9.0
164.gzip	1437	1363 (-5.1%)	1568	1571 (0.2%)	1546	1546 (0.0%)	1566	1540 (-1.7%)	-	1584	1574	1558 (-1.0%)
175.vpr	x	x	1429	1406 (-1.6%)	1515	1510 (-0.3%)	1516	1503 (-0.9%)	-	1483	1514	1486 (-1.8%)
176.gcc	x	x	2178	2184 (0.3%)	2161	2173 (0.6%)	2182	2143 (-1.8%)	-	2192	2199	2158 (-1.9%)
181.mcf	1149	1150 (0.1%)	1153	1149 (-0.3%)	1152	1148 (-0.3%)	1498	1500 (0.1%)	-	1501	1506	1505 (-0.1%)
186.crafty	1892	1877 (-0.8%)	1903	1921 (0.9%)	1952	1945 (-0.4%)	1935	1939 (0.2%)	-	2011	2011	1992 (-0.9%)
197.parser	1733	1257 (-27.5%)	1773	1275 (-28.1%)	1754	1253 (-28.6%)	1766	1267 (-28.3%)	-	1256	1764	1251 (-29.1%)
252.eon	2216	2622 (18.3%)	2463	2410 (-2.2%)	2973	2901 (-2.4%)	3220	3124 (-3.0%)	-	3176	3177	3133 (-1.4%)
253.perlbmk	2105	2104 (0.0%)	2093	2121 (1.3%)	2123	2148 (1.2%)	2142	2132 (-0.5%)	-	2209	2137	2250 (5.3%)
254.gap	1858	1869 (0.6%)	1889	1910 (1.1%)	1960	1999 (2.0%)	1974	1968 (-0.3%)	-	1990	1990	1952 (-1.9%)
255.vortex	2875	2799 (-2.6%)	2823	2829 (0.2%)	2797	2719 (-2.8%)	2856	2881 (0.9%)	-	2797	2835	2902 (2.4%)
256.bzip2	1480	1514 (2.3%)	1462	1460 (-0.1%)	1431	1437 (0.4%)	1433	1430 (-0.2%)	-	1442	1451	1445 (-0.4%)
300.twolf	1934	1777 (-8.1%)	1940	1939 (-0.1%)	1958	1950 (-0.4%)	1959	1962 (0.2%)	-	1944	1947	1953 (0.3%)
SPECint_base2000	1814	1761 (-2.9%)	1837	1787 (-2.7%)	1879	1823 (-3.0%)	1943	1879 (-3.3%)	-	1894	1950	1893 (-2.9%)

168.wupwise	2121	2131 (0.5%)	2166	2200 (1.6%)	2128	2174 (2.2%)	2456	2085 (-15.1%)	-	2197	2385	2366 (-0.8%)
171.swim	1448	1448 (0.0%)	2130	1944 (-8.7%)	2136	2110 (-1.2%)	2138	2110 (-1.3%)	-	2118	2134	2111 (-1.1%)
172.mgrid	1231	1244 (1.1%)	1330	1471 (10.6%)	1432	1463 (2.2%)	1458	1554 (6.6%)	-	1486	1418	1566 (10.4%)
173.applu	1230	1251 (1.7%)	1224	1243 (1.6%)	1205	1196 (-0.7%)	1530	1498 (-2.1%)	-	1530	1538	1513 (-1.6%)
177.mesa	1569	1587 (1.1%)	1893	1939 (2.4%)	2075	2046 (-1.4%)	2072	2075 (0.1%)	-	2018	2077	2046 (-1.5%)
178.galgel	2080	2056 (-1.2%)	2437	2459 (0.9%)	2495	2464 (-1.2%)	2445	2928 (19.8%)	-	2980	2475	2915 (17.8%)
179.art	1798	1804 (0.3%)	1785	1811 (1.5%)	1844	1839 (-0.3%)	1852	1847 (-0.3%)	-	1839	2686	2910 (8.3%)
183.equake	1657	1680 (1.4%)	1678	1669 (-0.5%)	1685	1680 (-0.3%)	1674	1671 (-0.2%)	-	1693	1679	1788 (6.5%)
187.facerec	1862	1722 (-7.5%)	1896	2024 (6.8%)	1902	2030 (6.7%)	1955	2036 (4.1%)	-	1989	1963	2001 (1.9%)
188.ammp	1390	1331 (-4.2%)	1333	1298 (-2.6%)	1319	1299 (-1.5%)	1276	1277 (0.1%)	-	1285	1298	1301 (0.2%)
189.lucas	1615	1624 (0.6%)	1570	1570 (0.0%)	1727	1734 (0.4%)	1729	1724 (-0.3%)	-	1722	1730	1723 (-0.4%)
191.fma3d	1525	1537 (0.8%)	1462	1483 (1.4%)	1566	1564 (-0.1%)	1593	1607 (0.9%)	-	1570	1614	1630 (1.0%)
200.sixtrack	779	778 (-0.1%)	781	791 (1.3%)	757	779 (2.9%)	750	779 (3.9%)	-	820	748	793 (6.0%)
301.apsi	1493	1456 (2.5%)	1475	1484 (0.6%)	1484	1492 (0.5%)	1519	1471 (-3.2%)	-	1474	1510	1464 (-3.0%)
SPECfp_base2000	1515	1506 (-0.6%)	1596	1613 (1.1%)	1633	1642 (0.6%)	1681	1693 (0.7%)	-	1698	1725	1776 (3.0%)

Неоптимизированный код: в целочисленных тестах и на этом процессоре весьма заметно отставание 197.parser (27.3% аналогичную величину мы получили на Pentium M), а также 300.twolf (13.3%), которое в некоторой степени компенсируется выигрышем в задачах 252.eon (9.3%) и 254.gap (10.2%). Общая оценка SPECint_base2000 уступает предыдущей версии компилятора примерно на 3%, что вновь весьма похоже на результаты тестов Pentium M. Тесты с плавающей точкой вновь показывают результат, близкий к предыдущей версии, который и здесь достигается не равенством скорости исполнения отдельных подтестов, а их различиями как в большую, так и в меньшую стороны, компенсирующими друг друга. В результате общий результат SPECfp_base2000 уступает всего 0.6% коду, откомпилированному ICC/IFC 8.1.

Оптимизированные варианты целочисленных тестов не вносят заметных отличий в картину, полученную на других процессорах. А именно, заметное отставание 197.parser (27-28%) сохраняется, заметный же выигрыш в отдельных подтестах не наблюдается вовсе (в порядке исключения, следует отметить задачу 253.perlbmk в варианте -QxP, отличающуюся 5.3% ростом производительности). Отставание в 197.parser обуславливает примерно 3% снижение общей оценки SPECint_base2000 во всех случаях. Что касается абсолютных величин производительности, они возрастают в ряду -QxK < -QxW < -QxN < -QxP < -QxB, то есть лучшим (но совсем ненамного, и то лишь в некоторых тестах и общей оценке) вариантом оптимизации оказывается «заточка» кода под ядро Banias. Собственно, такой результат нельзя назвать из ряда вон выходящим, учитывая родство микроархитектуры AMD K8 с Intel Pentium III/Pentium M, а не Pentium 4 (NetBurst).

Переходим к оптимизированным вариантам кода SPECfp. Как и с процессорами Intel, на Athlon 64 FX-57 во всех случаях наблюдается прирост производительности при переходе к новой версии компилятора. Относительная величина выигрыша различна (зависит от типа оптимизации), различны и, скажем так, способы ее достижения. Так, в SSE-варианте (-QxK) заметно падение в 171.swim на 8.7% (заметим, что на Pentium 4 в этой задаче наоборот наблюдался выигрыш) при увеличении скорости 172.mgrid на 10.6% и 187.facerec на 6.8%, общий прирост SPECfp_base2000 составляет 1.1%. В «старом» варианте SSE2 для ядра Willamette (-QxW, который, заметим, работоспособен на AMD K8 и без «доработки») явное лидерство сохраняется лишь в задаче 187.facerec (6.7%), общий выигрыш всего 0.6%. «Новый» вариант SSE2 для ядра Northwood отличается не большим возрастанием SPECfp_base2000 (0.7%), но заметен различный разброс величин в отдельных подтестах (-15.1%(!) в 168.wupwise, +6.6% в 172.mgrid и +19.8% в 178.galgel). Наконец, лучший вариант оптимизации под SSE3 (ядро Prescott, -QxP) характеризуется практически полным отсутствием падения производительности (следует упомянуть разве что 3% снижение в 301.aspi) при значительном росте скорости целого ряда задач (172.mgrid на 10.4%, 178.galgel на 17.8%, 179.art на 8.3%, 183.equake на 6.5%). В результате, общая оценка SPECfp_base2000 на целых 3% выше по сравнению с предыдущей версией. Что касается эффективности кода, как мы уже отметили, она наиболее высока при использовании SSE3. Вслед за ним располагается SSE2-вариант, рассчитанный на ядро Banias (-QxB), что вновь не имеет противоречий с представлениями о микроархитектуре AMD K8, далее располагаются -QxN, -QxW и -QxK.

Выводы

Новые компиляторы Intel C++/Fortran Compiler 9.0 в «типовом» варианте компиляции кода (если таковым считать компиляцию с профилированием) демонстрируют неоднозначную картину. Результирующий целочисленный код по скорости в целом несколько (на 3-5%) уступает коду, полученному с предыдущей версией компиляторов 8.1. Значимое падение производительности наблюдается лишь в одной задаче, зато весьма весомое от 27 до 34% в зависимости от процессора. И хорошо, если пользовательский код не окажется подобным этой задаче :).

Тем не менее, в плане вычислений с вещественными числами (где используются инструкции SSE, SSE2, SSE3) новая версия компиляторов показывает некоторое преимущество над предыдущей правда, весьма незначительное (от 0 до 3%). Сохраняется и адекватность использования ключей оптимизации под конкретную микроархитектуру процессора (-QxP для Pentium 4/Prescott, -QxB для Pentium M/Dothan, для процессоров класса AMD K8 можно рекомендовать поэкспериментировать с ключами -QxB и -QxP).

Кстати, несколько слов о процессорах AMD. Результаты проведенного исследования показывают, что обе версии ICC/IFC 8.1 и 9.0 выдают на выходе код, обладающий очень хорошей (а в ряде случаев и лучшей) производительностью на процессорах конкурента… если только его немного «исправить» :), или же «исправить» библиотеки компилятора. Было бы просто замечательно, если бы корпорация Intel, производитель процессоров и компиляторов, заменила бы нынешний вариант проверки типа процессора на более разумный наподобие того, который использовали мы.

Такая модификация оказалась бы выгодна, прежде всего, для конечных пользователей в этом случае, даже при использовании разработчиком ПО «автоматических» вариантов оптимизации вида -Qax*, при исполнении приложения будет выбран наиболее оптимизированный вариант кода, причем в зависимости только от наличия необходимых расширенных наборов инструкций, а не изготовителя процессора. Отметим, что один из пунктов обвинения Intel со стороны AMD заключался как раз в том, что при исполнении «автоматического» варианта кода процессоры AMD могут сильно уступать процессорам конкурента, несмотря на присутствие в них необходимых расширений.

Не менее благоприятной она оказалась бы и для разработчиков и тестировщиков ПО отпала бы необходимость использования разных компиляторов для разных процессоров, или в «привязке» к процессорам конкретного производителя при разработке и отладке приложений.

И, конечно, в немалой выгоде оказалась бы и сама компания AMD ибо начисто отпала бы необходимость в разработке собственного компилятора, которая вот уже долгое время находится в состоянии неопределенности :).