Paketverluste und hohe Latenz unter CPU-Last

linuxservice

Neuer User
Mitglied seit
15 Feb 2006
Beiträge
70
Punkte für Reaktionen
0
Punkte
0
So, jetzt ists mir auch mal passiert: Rechner runtergefahren waehrend ich noch auf der Box eingeloggt war und anschliessend die haengende sh als CPU-Hog gehabt.

Merkwuerdig allerdings die Symptome: Die Internetverbindung fing an, sich irgendwie "langsam" und "unzuverlaessig" anzufuehlen. Upstream war auf weniger als die Haelfte runter, Downstream ganz erheblich, traceroutes hatten teilweise über 80% Paketverlust und eine first-hop-Latenz von 200-300 ms.

Als ich schon fast meinen Provider irgendwelcher Schweinereien verdächtigen wollte (hier wurde die letzten Tage (bzw. Nächte) auch schon wieder mit L2 rumgetestet - entweder läuft das immer noch nicht oder die Fritz mag die aktuelle Inkarnation noch weniger als die letzte, da ging so gut wie gar nix mehr durch und in L0 zurück gings auch nicht mehr) habe ich dann die >85% oben im top entdeckt.

Ich gehe mal davon aus, dass das kein ursaechlicher Bug des mods ist und nur durch den ssh-hangup-Bug getriggert wird. Trotzdem wärs schön, für sowas einen Watchdog zu haben.

(Weiss jemand, was kdsld_token treibt und warum es auf nice 19 läuft? Das wird vermutlich der Grund dafür sein, das CPU-Hogs den Durchsatz killen)
 
Welche Box denn?
 
Die Ursache liegt darin begründet, wie die Busybox-Shell (ash) mit Prozeßgruppen umgeht. Beim Shell-Exit muß die vor Shell-Start im Vordergrund und während der Shell-Ausführung im Hintergrund laufende Prozeßgruppe wieder zurück in der Vordergrund gebracht werden. Dabei gibt es ein Problem, das zu erklären ein bißchen umständlich wäre. Der vorletzte Satz war sowieso schon lange genug.

Fakt ist, daß Denis Vlasenko, einer der maßgeblichen Busybox-Entwickler, dran sitzt und mir Test-Patches schickt. Einer davon behebt das Problem auch, ist aber nicht freigegeben, weil er nur zum Ausprobieren war und mögliche negative Nebeneffekte an anderer Stelle hat. Er zeigt aber, woran es grundsätzlich liegt, so daß Aussicht auf baldige Behebung des Problems besteht. Gleiches gilt für das hängende Telnet der ersten Konsole beim regulären Exit. Die beiden Probleme scheinen zusammenzuhängen.

Legt mich bitte nicht auf ein Datum fest und fragt die nächsten zwei Wochen nicht nach. Aber freut Euch darauf, daß es eine Lösung von dritter Seite geben wird. :)
 
Zuletzt bearbeitet:
Ähm das mus es nicht nur sein. Ich habe derzeit ähnliche Probleme und es gibt dafür auch eine Ursache. Derzeit baut die Telekom ihre DSL Backbone Netzwerke aus und es kommt Deutschlandweit zu Problemen mit der DSL. Ich bin bei 1und1 und hab schon an zwei Tagen ähnliche Probleme gehabt.
 
Hary00 schrieb:
Ähm das mus es nicht nur sein. Ich habe derzeit ähnliche Probleme und es gibt dafür auch eine Ursache. Derzeit baut die Telekom ihre DSL Backbone Netzwerke aus und es kommt Deutschlandweit zu Problemen mit der DSL. Ich bin bei 1und1 und hab schon an zwei Tagen ähnliche Probleme gehabt.

War es in dem Fall aber nicht. CPU-hog gekillt, Durchsatz wieder normal. Das hatte ich auch nicht in erster Linie wegen des Bugs gepostet (der war ja hinlaenglich bekannt) sondern wegen der eigenartigen Symptomatik, die sich tatsaechlich eher wie ein providerseitiges Problem anfuehlte, dann aber nicht war.

Bleibt nach wie vor die Frage, warum kdsld_token genicet laeuft, wenn sein ungehinderter Zugriff auf CPU-Zeit doch so wichtig fuer die Funktion der Box zu sein scheint...
 
Wo wird er denn genicet?
 
Könnte man ggf. den Thread in "[Erledigt] ..." oder "[Gelöst] ..." umbenennen?
 
kriegaex schrieb:
Könnte man ggf. den Thread in "[Erledigt] ..." oder "[Gelöst] ..." umbenennen?

Es ging mir hierbei wirklich nicht um den ssh-Bug. Es ging darum, dass hohe CPU-Last sich stark auf den Durchsatz auswirkt, und das in einer subtilen Weise, die erstmal nicht direkt nach einem Fritzbox-Problem aussieht. Man hätte das vielleicht auch "Was macht kdsld_token?" nennen können, aber unter dem Thema findet das niemand, der nach dem Problem sucht.
 
Das ist mir klar. So war es auch nicht gemeint. Ich dachte nur, das Thema sei nun bekannt und ausdiskutiert. Tut mir leid, wenn ich das falsch verstanden habe. Wenn Ihr noch Gesprächsbedarf seht, laßt Euch nicht stören.
 
rannseier schrieb:
Wo wird er denn genicet?

Der nicet sich vermutlich selbst. Gestartet wird er beim Laden von kdsldmod und läuft dann als Kernelthread.

Ein strings auf kdsldmod.ko liefert u.a. "AR7CFG_cpu_schedule_dsl_token_default". Die ar7.cfg enthält auch tatsächlich einen Abschnitt cpu_schedule, wo dsl_token auf 5000 gesetzt wird. Aber warum und wofür? Keine Ahnung...

Vielleicht sollten wir erstmal anfangen, herauszufinden, welche Boxen das überhaupt haben und ob es andere Werte gibt.
 
Holen Sie sich 3CX - völlig kostenlos!
Verbinden Sie Ihr Team und Ihre Kunden Telefonie Livechat Videokonferenzen

Gehostet oder selbst-verwaltet. Für bis zu 10 Nutzer dauerhaft kostenlos. Keine Kreditkartendetails erforderlich. Ohne Risiko testen.

3CX
Für diese E-Mail-Adresse besteht bereits ein 3CX-Konto. Sie werden zum Kundenportal weitergeleitet, wo Sie sich anmelden oder Ihr Passwort zurücksetzen können, falls Sie dieses vergessen haben.