[Lista ArNOG] Mikrotik CCR1072 - Mala experiencia
Pablo Fernández - Cooperativa Eléctrica de Luján
pablof en cooperativadelujan.com.ar
Mar Nov 29 15:22:16 ART 2016
Iván, revisa el hilo, aparentemente la eth1 es la que utiliza un solo CPU, la utilizas para sacar trafico?
_____
De: lista-bounces en arnog.com.ar [mailto:lista-bounces en arnog.com.ar] En nombre de Ivan Chapero
Enviado el: martes, 29 de noviembre de 2016 01:32 p.m.
Para: lista en arnog.com.ar
Asunto: Re: [Lista ArNOG] Mikrotik CCR1072 - Mala experiencia
Pablo, tal vez por el uso de connection-tracking se ve una carga mas pareja de los cores producto del firewall. Es correcta tu observacion del uso de cpu extraño en nuestro caso.
El 26 de noviembre de 2016, 19:46, Pablo Fernández - Cooperativa Eléctrica de Luján <pablof en cooperativadelujan.com.ar> escribió:
Iván, tenemos 3 CCR1072 en producción, uno principal en borde con tráfico de 1.7gb, 5 peers, reglas de firewall, etc. El comportamiento es como lo describe Eduardo, es muy extraño el uso de CPU que mostras. Lo que si se nota es que uno de los CPUs por lo general suma mucho más uso que el resto al igual que los IRQs del mismo.
Saludos
Enviado desde mi Google Nexus 6p
El 26 nov. 2016 6:23 p. m., Eduardo Tealdi Saad <eduardots en amc.com.ar> escribió:
Ivan:
Nosotros reemplazamos nuestro router de borde, pasando de CCR1036 a CCR1072.
Pero no tuvimos ningún inconveniente.
Por lo que comentas es un uso parecido aunque tenemos algunas cosas mas y mas trafico.
No es necesario aclarate que cualquier consulta estoy a tu disposicion, por medio de la lista o mano a mano si te facilita las cosas.
2 Carrier solo default + CABASE con sus 11k rutas
Firewall 120 reglas
Mangle unas 30 reglas para ruteo x origen
No se brinda ningún servicio a la red (DNS, DHCP, NAT, etc) desde el router.
Sin reglas de Mangle, sin reglas de NAT, "connection-tracking=Auto" (ACTIVO).
Sin QOS o queues de algun tipo.
SNMP activo
Nuestro trafico supera los 3Gb
Profile Uso CPU Total
Firewall 30%
Networking 10%
Management 1.2% Pico
unclassified 0.1 a 0.4%
El resto de los procesos no superan el 1%
De los 72 nucleos todo estan con carga, ninguno dormido.
# CPU LOAD IRQ DISK
0 cpu0 1% 1% 0%
1 cpu1 49% 49% 0%
2 cpu2 50% 50% 0%
3 cpu3 11% 11% 0%
4 cpu4 0% 0% 0%
5 cpu5 62% 62% 0%
6 cpu6 17% 17% 0%
7 cpu7 34% 34% 0%
8 cpu8 77% 77% 0%
9 cpu9 49% 49% 0%
10 cpu10 19% 19% 0%
11 cpu11 55% 55% 0%
12 cpu12 38% 38% 0%
13 cpu13 5% 5% 0%
14 cpu14 4% 4% 0%
15 cpu15 78% 78% 0%
16 cpu16 47% 47% 0%
17 cpu17 53% 53% 0%
18 cpu18 63% 63% 0%
19 cpu19 13% 12% 0%
20 cpu20 4% 4% 0%
21 cpu21 0% 0% 0%
22 cpu22 27% 27% 0%
23 cpu23 53% 53% 0%
24 cpu24 69% 69% 0%
25 cpu25 61% 61% 0%
26 cpu26 69% 69% 0%
27 cpu27 28% 27% 0%
28 cpu28 23% 23% 0%
29 cpu29 0% 0% 0%
30 cpu30 44% 44% 0%
31 cpu31 8% 7% 0%
32 cpu32 55% 52% 0%
33 cpu33 58% 57% 0%
34 cpu34 49% 49% 0%
35 cpu35 40% 40% 0%
36 cpu36 37% 36% 0%
37 cpu37 28% 28% 0%
38 cpu38 13% 13% 0%
39 cpu39 25% 25% 0%
40 cpu40 60% 60% 0%
41 cpu41 51% 51% 0%
42 cpu42 61% 61% 0%
43 cpu43 30% 30% 0%
44 cpu44 48% 48% 0%
45 cpu45 21% 21% 0%
46 cpu46 71% 71% 0%
47 cpu47 40% 40% 0%
48 cpu48 72% 72% 0%
49 cpu49 64% 64% 0%
50 cpu50 68% 68% 0%
51 cpu51 46% 46% 0%
52 cpu52 54% 54% 0%
53 cpu53 60% 60% 0%
54 cpu54 20% 20% 0%
55 cpu55 71% 71% 0%
56 cpu56 100% 53% 0%
57 cpu57 70% 70% 0%
58 cpu58 52% 52% 0%
59 cpu59 58% 58% 0%
60 cpu60 32% 32% 0%
61 cpu61 55% 55% 0%
62 cpu62 31% 31% 0%
63 cpu63 43% 41% 0%
64 cpu64 67% 67% 0%
65 cpu65 37% 37% 0%
66 cpu66 77% 77% 0%
67 cpu67 50% 49% 0%
68 cpu68 27% 27% 0%
69 cpu69 57% 57% 0%
70 cpu70 69% 69% 0%
71 cpu71 65% 65% 0%
--
Eduardo Tealdi Saad
Administrador de Red
Cooperativa Mariano Acosta
Superi 660, Mariano Acosta (CP 1723)
Cel: 221 643-4291
eduardots en amc.com.ar
El 26/11/2016 a las 5:25 p. m., Ivan Chapero escribió:
Buenas,
comparto una mala experiencia que tuvimos con el primer despliegue de un CCR1072 como edge-router. La intención es evaluar con otros operadores si es reversible, así como también que sirva de antecedente para otros tentados por los 72 cores o la cantidad de SFP+.
Como RouterOS es un all-in-one es muy difícil comparar experiencias de otros dado que la combinatoria de features / protocolos que pueden estar activos es enorme. Por esto aclaro primero que nada el entorno de uso del equipo (y me atrevo a decir que seria el recomendado para todo router -y solo router- de frontera):
- Router de "borde" de un ISP.
- IPv4-only (ni siquiera el package ipv6 enabled).
- eBGP hacia dos carriers, aceptando e instalando solo default-gw.
- iBGP a un segundo borde para redundancia active:active.
- routing estático hacia adentro (no IGP, se podría decir que el único protocolo de routing activo es BGP).
- Firewalling: sin estado (ninguna regla tiene connection-state como matcheo), sin reglas de Mangle, sin reglas de NAT, "connection-tracking=no".
- No se brinda ningún servicio a la red (DNS, DHCP, NAT, etc) desde el router.
- QoS: nada de nada, vacío de config el apartado queue.
- Desactivado temporal por típica "a ver si es esto" en RouterOS: SNMP, todos los ip services menos winbox y ssh, logging.
## Maniobras realizadas a pedido del soporte Mikrotik que no tuvieron éxito (a pesar de que algunas rompen la necesidad o la idea de un equipo en producción original):
- pasar por todas las last-version de cada rama de RouterOS (bugfix, current, RC).
- disable de todas la reglas de firewall (que no hacían uso de connection-tracking).
- usar varias interfaces SFP+ físicas individuales en vez de trunkear todo en vlans en unas pocas (ej 10G-WANs , 10G-CORE).
- actualizar el firmware del RouterBoard.
## Detalle MUY IMPORTANTE:
- El CCR1072 se desplegó como remplazo natural del CCR1036 que estaba (y dado esto, sigue) en producción, pensando mayormente en eliminar los LAGs Nx1G y simplificar la conexión física a los carriers que se supera el Gbps de trafico contratado.
- Por esta razón, en cuanto a config el CCR1072 es un export/import literal de la config del CCR1036. Si hacemos un diff entre uno y otro solo varían las lineas referidas a las interfaces físicas (incluso tratamos de imitar el uso de un LAG innecesario en el CCR1072 apostando a un tema de interrupciones).
- Con esto quiero remarcar que a exactamente igual config y mismo tráfico agregado (equipo de remplazo) que el CCR1036, el uso de CPU es horrible en el CCR1072. Mal distribuido principalmente (haciendo uso de no mas de 4 o 5 cores) y generando peaks en cores individuales, combo que reduce enormemente la escalabilidad del equipo.
### Analizando con profile tool, en muchas ocasiones "unclassified" proccess es el que se lleva gran parte de los cores que se pican intercaladamente a valores altos con respecto a la carga de tráfico:
CCR1072-BORDE] > tool profile cpu=2
NAME CPU USAGE
firewall 2 0%
networking 2 1%
management 2 0%
routing 2 0%
idle 2 82%
profiling 2 1%
unclassified 2 16% <<< WTF!
CCR1072-BORDE] > tool profile cpu=2
NAME CPU USAGE
firewall 2 1%
networking 2 0%
management 2 0%
routing 2 0%
idle 2 65%
profiling 2 0%
unclassified 2 34% <<< WTF!
### Incluso en horarios de poco trafico:
CCR1072-BORDE] > interface monitor-traffic sfp-sfpplus5
name: sfp-sfpplus5
rx-packets-per-second: 40 490
rx-bits-per-second: 387.9Mbps
fp-rx-packets-per-second: 40 490
fp-rx-bits-per-second: 387.9Mbps
rx-drops-per-second: 0
rx-errors-per-second: 0
tx-packets-per-second: 40 259
tx-bits-per-second: 387.6Mbps
fp-tx-packets-per-second: 40 259
fp-tx-bits-per-second: 387.6Mbps
tx-drops-per-second: 0
tx-errors-per-second: 0
### Como se puede ver 60 o mas cores duermen la siesta mientras un par hacen todo el trabajo, en los 1072 reina el sindicalismo :P
CCR1072-BORDE] > system resource cpu print
# CPU LOAD IRQ DISK
0 cpu0 0% 0% 0%
1 cpu1 0% 0% 0%
2 cpu2 0% 0% 0%
3 cpu3 0% 0% 0%
4 cpu4 0% 0% 0%
5 cpu5 37% 1% 0%
6 cpu6 0% 0% 0%
7 cpu7 0% 0% 0%
8 cpu8 0% 0% 0%
9 cpu9 0% 0% 0%
10 cpu10 0% 0% 0%
11 cpu11 0% 0% 0%
12 cpu12 0% 0% 0%
13 cpu13 0% 0% 0%
14 cpu14 0% 0% 0%
15 cpu15 0% 0% 0%
16 cpu16 0% 0% 0%
17 cpu17 6% 6% 0%
18 cpu18 0% 0% 0%
19 cpu19 0% 0% 0%
20 cpu20 0% 0% 0%
21 cpu21 0% 0% 0%
22 cpu22 0% 0% 0%
23 cpu23 0% 0% 0%
24 cpu24 0% 0% 0%
25 cpu25 0% 0% 0%
26 cpu26 0% 0% 0%
27 cpu27 0% 0% 0%
28 cpu28 0% 0% 0%
29 cpu29 0% 0% 0%
30 cpu30 0% 0% 0%
31 cpu31 0% 0% 0%
32 cpu32 0% 0% 0%
33 cpu33 0% 0% 0%
34 cpu34 0% 0% 0%
35 cpu35 2% 2% 0%
36 cpu36 0% 0% 0%
37 cpu37 34% 33% 0%
38 cpu38 0% 0% 0%
39 cpu39 2% 2% 0%
40 cpu40 0% 0% 0%
41 cpu41 0% 0% 0%
42 cpu42 0% 0% 0%
43 cpu43 0% 0% 0%
44 cpu44 0% 0% 0%
45 cpu45 0% 0% 0%
46 cpu46 0% 0% 0%
47 cpu47 1% 1% 0%
48 cpu48 0% 0% 0%
49 cpu49 0% 0% 0%
50 cpu50 0% 0% 0%
51 cpu51 0% 0% 0%
52 cpu52 0% 0% 0%
53 cpu53 0% 0% 0%
54 cpu54 0% 0% 0%
55 cpu55 0% 0% 0%
56 cpu56 0% 0% 0%
57 cpu57 0% 0% 0%
58 cpu58 0% 0% 0%
59 cpu59 0% 0% 0%
60 cpu60 0% 0% 0%
61 cpu61 0% 0% 0%
62 cpu62 0% 0% 0%
63 cpu63 0% 0% 0%
64 cpu64 3% 2% 0%
65 cpu65 0% 0% 0%
66 cpu66 1% 0% 0%
67 cpu67 0% 0% 0%
68 cpu68 0% 0% 0%
69 cpu69 0% 0% 0%
70 cpu70 0% 0% 0%
71 cpu71 0% 0% 0%
--
Ivan Chapero
Área Técnica y Soporte
Fijo: 03464-470280 (interno 535) | Móvil: 03464-155-20282 | Skype ID: ivanchapero
--
GoDATA Banda Ancha - CABLETEL S.A. | Av. 9 de Julio 1163 - 2183 - Arequito - Santa Fe - Argentina
_______________________________________________
Lista mailing list
Lista en arnog.com.ar
http://mailmancabase. <http://mailmancabase.interdotnet.com.ar/mailman/listinfo/lista> interdotnet.com.ar/mailman/listinfo/lista
_______________________________________________
Lista mailing list
Lista en arnog.com.ar
http://mailmancabase. <http://mailmancabase.interdotnet.com.ar/mailman/listinfo/lista> interdotnet.com.ar/mailman/listinfo/lista
--
Ivan Chapero
Área Técnica y Soporte
Fijo: 03464-470280 (interno 535) | Móvil: 03464-155-20282 | Skype ID: ivanchapero
--
GoDATA Banda Ancha - CABLETEL S.A. | Av. 9 de Julio 1163 - 2183 - Arequito - Santa Fe - Argentina
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://mailmancabase.interdotnet.com.ar/pipermail/lista/attachments/20161129/10904095/attachment-0001.html>
Más información sobre la lista de distribución Lista