AVM: Eine hohe CPU-Auslastung an sich ist noch kein Problem ...
Ich bin mitlerweile in einem Dialog mit AVM, alles sehr nett und sie bemühen sich wirklich, aber die Grundaussage ist: Solange es keine Störungen im Betrieb gibt, ist uns die Last egal. Ich bitte daher die anderen Betroffenen: Bleibt dran und meldet das Problem auch an AVM!
Kernpunkt ist m.E.: Alles was AVM sagt, kann nicht erklären, warum die Box nach einem Neustart oft viele Stunden lang mit einer Last von kaum über 0.00 sich quasi langweilt (und dabei natürlich sehr schön performant ist) und dann plötzlich ohne erkennbaren Anlass auf eine Last von 2.50 bis 3.XX ansteigt, ohne dann auch wieder von dieser Last runterzukommen!
Hier jetzt mal der Reihe nach mein Mailaustausch (teilweise gekürzt und sowieso anonymisiert) mit AVM aus den letzten Tagen:
Meine erste Meldung an AVM, 11.10.09:
Fehlerbeschreibung:
Spontan 100% CPU Load durch Prozess multid.
Das Problem tritt auf mit NICHT modifizierter Firmware ab XX.04.76 auf, auch nach Rücksetzen auf Werkseinstellungen.
Das Problem ist Ihnen bekannt ...[... Verweis auf IPPF ...]
Durch Stoppen des multid (multid -s) geht die Last wieder auf Normal, um 0.00, zurück). Nach Starten des multid steigt die Last sofort wieder an, unabhängig davon, ob USB-Geräte angeschlossen sind oder nicht.
Erst ein Neustart der Box schafft Abhilfe. Das Problem tritt dann spontan wider auf, ohne dass irgendwelche Ereignisse zu der Zeit, wo die Last hoch geht, sichtbar wären.
Die hohe Last kann 1 Stunde oder auch erst 2,5 Tage nach dem Neustart auftreten.
Anwort AVM vom 12.10.:
Bitte senden Sie mir einen Screenshot mit der Auslanstung und dem entsprechenden Prozess. Teilen Sie mir außerdem bitte mit, ob dies ein Prozess unter Windows ist oder ob es sich um einen Dienst auf der FRITZ!Box handelt.
Ok, das möchte ich dann nicht näher kommentieren ...
meine Antwort am selben Tag:
[...] multid ist ein Dienst auf der FRITZ!Box. Ich hatte angenommen, das sei bekannt.
Nach dem spontanen Ansteigen der Last zeigt der Befehl Uptime z.B.:
# uptime
23:14:18 up 1 day, 19:16, load average: 2.90, 0.87, 0.31
ich stoppe multid -s
# multid -s
nach ca. 1 Minute ist die Last wieder 'normal':
# uptime
23:17:18 up 1 day, 19:16, load average: 0.00, 0.08, 0.15
Ich weiß schon, was jetzt kommt: Ja, ich habe telnetd auf der Box aktiviert, und somit ist es nicht mehr eine von Ihnen unterstütze Firmware. Aber ich betone nochmal: Das Problem tritt auf mit NICHT modifizierter Firmware ab XX.04.76
auf, auch nach Rücksetzen auf Werkseinstellungen. Nur lässt es sich dann natürlich nicht mehr durch die telnet-Ausgabe zeigen, nur noch im Energiemonitor.
Die Antwort von AVM folgte wie erwartet: Eigene Änderungen und Labor-FW wird nicht supportet, bitte die Box auf die offizielle FW zurücksetzen. Na gut, habe ich gemacht. Dann kam von AVM noch:
Wenn der Fehler auch unter der regulären Version der Firmware im NICHT modifizierten Zustand auftritt, so lassen Sie mir bitte noch einen Screenshot des Energiemonitors sowie Support-Daten zukommen, welche in diesem Zustand erstellt wurden. Vielen Dank!
Nun gibt es den Energiemonitor in der FW.76 noch gar nicht in der Form wie in der aktuellen Labor, und man kann der Verlauf der Last nicht sehen. Ich schrieb also an AVM:
anbei zwei Support-Dateien von heute morgen: Um 01:33 Uhr war die Last noch normal.
Um 09:48 Uhr ist die Last stark erhöht. Der Screenshot ist nicht so aussagekräftig, da es den Graphen mit der CPU-Auslastung in dieser Version ja noch nicht gibt.
Dann erhielt ich eine Anruf von AVM, und ein Mitarbeiter ließ sich von mir das ganze Thema nochmal am Telfon schildern. Ich bin dabei auch ausführlich auf das Problem mit telnet und/oder Freetz eingegangen, denn anders kann ich das Problem ja nicht erkennen ...
Zwischendurch war dann telnet an, obwohl ich es nicht bemerkt hatte, also wieder Ablehung durch AVM.
BTW: Wenn man nur
einmal telnet auf der Box aktiviert hat, bleibt das vermerkt, auch wenn man es wieder ausschaltet oder sogar einen Werksreset macht. Erst ein Recover mit dem Recovery-Image von AVM stellt den Originalzustand der Box wieder her.
So, dann kam mal was Ausführliches, inzwischen haben wir den 22.10.:
Eine hohe CPU-Auslastung an sich ist noch kein Problem und somit nicht untersuchenswert. Es gibt einige Faktoren in der Einsatzkonstellation, die schon für eine latent hohe Last im Normalbetrieb sorgen können. Hinzu kommt eine recht hohe und mindestens grenzwertige USB-Last und auch der Einsatz eines von der FRITZ!Box nicht unterstützten USB-Gerätes. Der Einsatz im ATA-Mode bei einer zugleich recht hohen externen Bandbreite ist gleichfalls latent recht Performance-lastig. Wir können gerne einzelne Fehlerbilder betrachten, sofern Sie dies wünschen. Dazu benötigen wir aber zum jeweiligen Fehlerbild eine detaillierte Beschreibung. Wir werden Ihnen dann im nächsten Schritt mitteilen, welche Daten wir jeweils zu den
beschriebenen Problemen für eine Analyse benötigen. Es wäre hilfreich, wenn Sie sich auf ein bis zwei Fehlerbilder zunächst konzentrieren würden, da andernfalls ein strukturiertes Vorgehen erschwert würde.
Ein längerer Betrieb im DSL-Diagnosemodus sollte übrigens auch unbedingt vermieden werden. Dieser Modus dient ausschließlich zur Diagnose von
DSL-Problemen und führt zu einer sehr hohen Zusatzlast. Die Funktion sämtlicher anderer Module kann bei aktivem DSL-Diagnosemodus stark beeinträchtigt sein. Daher sind Seiteneffekte in diesem Modus für uns generell nicht untersuchenswert. Dieser Diagnosemodus war laut den Support-Daten vom 21.10.2009 mindestens in der Zeit von 08:45 bis 09:19 aktiv. Den Neustart hatten Sie übrigens zweimal ausgelöst, einmal durch den Start des DSL-Diagnosemodus kurz vor 08:45 und ein weiteres Mal durch das erstellen der Support-Daten im DSL-Diagnosemodus um 09:19. Durch letzteres wurde der DSL-Diagnosemodus dann auch wieder automatisch beendet. Es handelt sich in beiden Fällen um ein von uns gewolltes Verhalten.
Das mit dem Diagnose-Modus und Neustart hatte ich überlesen. Aber inhaltlich finde ich das schon gewagt: Soll die CPU ruhig braten, solange es nicht stört, macht das ja nichts ... das verdiente dann auch eine ausfühliche Antwort von mir, die folgte prompt
(Zitate von AVM kursiv):
[...] vielen Dank für Ihre ausführliche Mail.
Eine hohe CPU-Auslastung an sich ist noch kein Problem und somit nicht untersuchenswert.
Nun ja, dass sehe ich als Linux-Admin anders. Wenn wir auf einem unserer
(Web/Mail)-Server eine dermaßen hohe Load haben, suchen wir die Ursache
*bevor* die Last zu einem Problem wird. Insbesondere dann, wenn wir keine
Erklärung für die Last haben.
Es gibt einige Faktoren in der Einsatzkonstellation, die schon für eine latent hohe Last im Normalbetrieb sorgen können.
Im Normalbetrieb liegt die Load meiner Box *weit* unter 1.00, auch wenn gesurft/gedownloaded und telefoniert wird.
Hinzu kommt eine recht hohe und mindestens grenzwertige USB-Last und auch der Einsatz eines von der FRITZ!Box nicht unterstützten USB-Gerätes.
Welches wäre das bei mir? Ich habe einen Canon Drucker, einen USB-Stick und eine per USB schaltbare Steckdosenleiste dran.
Der Einsatz im ATA-Mode bei einer zugleich recht hohen externen Bandbreite ist gleichfalls latent recht Performance-lastig.
Wiegesagt ist das normalerweise hier nicht der Fall.
Wir können gerne einzelne Fehlerbilder betrachten, sofern Sie dies wünschen. Dazu benötigen wir aber zum jeweiligen Fehlerbild eine detaillierte Beschreibung.
Wie am Telefon gesagt: Aussetzer und Knackser bei Telefonie und allgemein schlechte Performance (incl. sehr schlechter IP-Durchsatz).
Aber da haben wir das Problem: Ich kann Ihnen Fehlerbilder liefern, die Sie aber wegen Telnet und Freetz nicht akzeptieren.
Es ist der Prozess "multid", der bis zu 99% CPU Last macht, das kann ich zeigen wenn ich Freetz oder eine Busybox auf der Box habe, die "top" unterstützt. Ich hatte ja gedacht, dass es evtl. an Freetz liegt, aber die Last tritt ja eben mit Original-FW ebenfalls auf (und es erscheint mir unlogisch, wenn das eine andere Ursache hätte). Ok, ob multid die eigentliche Ursache ist, wissen wir natürlich nicht.
Entscheidend ist doch auch, dass die Last spontan auftritt. In der neuen Labor-FW kann man das ja grafisch sehr schön sehen, da hatte ich Ihnen anfangs Bilder geschickt. Es kam schon vor, dass die Box 2 Tage lang lief, und erst dann die Last anstieg (von 25 auf 100%), manchmal passiert das auch nach wenigen Stunden.
Dieses Verhalten widerspricht m.E. Ihren Ausführungen zur allgemeinen Ursachen der Performance-Lastigkeit.
Weiter ist es so, dass die Last sofort wieder auf Normalmaß (meist unter 0.50) sinkt, wenn ich den Prozess mit 'multid -s' beende. Nach Ihren Ausführungen müsste die Last aber auch durch Abtrennen der Box von alles USB-Geräten und vom Kabelmodem sinken, oder?
Wir werden Ihnen dann im nächsten Schritt mitteilen, welche Daten wir jeweils zu den beschriebenen Problemen für eine Analyse benötigen. Es wäre hilfreich, wenn Sie sich auf ein bis zwei Fehlerbilder zunächst konzentrieren würden, da andernfalls ein strukturiertes Vorgehen erschwert würde.
Ja, siehe oben, ich bin gespannt auf Ihre Vorschläge.
Ein längerer Betrieb im DSL-Diagnosemodus sollte übrigens auch unbedingt vermieden werden. ...
Ok, konnte ich natürlich nicht wissen. Das sollte evtl. angezeigt werden.
Anbei eine aktuelle Support Datei. Die Last ist 2.99. Ich werde die Box
jetzt neu starten.
Gesagt, getan ... dann gingen wieder jede Menge Support-Dateien an AVM.
Am nächsten Tag (23.10.) setzte ich nochmal nach, da AVM ja behauptet, es gäbe ganz 'normale' Gründe für die Last meiner Box
[...] Und warum läuft meine Box dann mindestens 3 Stunden lang (vermutlich länger) mit einer Last von nahezu 0.00 ? Siehe angeh. Support-Files:
18:42 - hohe Last 2.57 festgestellt, anschließend Neustart
19:40 - ok 0.12
20:16 - ok 0.00
20:52 - ok 0.00
21:46 - ok 0.05
10:07 - Last 2.46
10:38 - Last 3.27 (!)
10:47 - Last 3.13
Ich belasse die Box jetzt mal in den Zustand der hohen Last und werde
ca. alle 30 Minuten versuchen, eine Support-Datei zu erstellen.
Nach meinen bisherigen Beobachtungen geht die Last nicht von alleine
wieder herunter.
Die Downloadgeschwindigkeit ist in diesem Zustand stark beeinträchtigt,
nur noch ca. 10000 KBit/s (statt 30000 KBit/s)
Bitte teilen Sie mir mit, wie ich weiter vorgehen soll.
Daraufhin kam von AVM die genaue Anleitung, wie ich einen Paketmitschnitt während eines Telefongesprächs und Supportdateien damit hinschicken soll. Das habe ich getan, allerdings war das Gespräch (wo bei ich mich nur mit meinem eigenen Anrufbeantworter unterhalten habe) trotz der Last von fast 3.00 nicht gestört.
Mal sehen, wie's weitergeht ...
UdoSW