ALPHANET: ancien problèmes

Ce document contient les pannes et problèmes survenus dans le passé. Consulter également les problèmes actuels.

Informations

Date quoi
2005-03-21 Regénération clés SSL IMAP et POP.
2005-03-23 Quatrième serveur DNS; support dynamic update pour fail over; secure.alphanet.ch pour SSL.
2005-07-18 Mise à jour à sarge
2005-10-05 Nouvelle version de mail-admin et fin des notifications de SPAM aux émetteurs.
2005-11-29 Greylisting anti-SPAM.
2005-12-11 PostgreSQL? 8.0-cril.
2006-01-22 Mise à jour firmware net2000 par eux, semble corriger problème RTT en charge expérimenté depuis 6000/800
2006-02-10 Diminué débit des sauvegardes pour work-around net2000 crash firmware
2006-03-03 Echange modem net2000 pour correction net2000 crash firmware
2006-03-10 Suppression MX secondaire inutile en l'état
2006-03-23 Mise à jour certificats SSL POP/IMAP
2006-04-08 Arrêt pour changement kernel et ajout disque-dur en prévision migration de données; suppression cartes HFC.
2006-05-31 Ajout 2e disque RAID sur 2e contrôleur.
2006-06-13 Correction flags no post et modéré sur newsgroups.
2006-06-15 hddtemp dans mrtg-stats remis en fonction.
2006-06-30 Suppression modem comstar et ajout surveillance UPS. Réorganisation câblage alimentation.
2006-07-03 Mises à jour, notamment courier.
2006-09-14 Mises à jour, notamment Mailman.
2003-03-10 Lecture locale UNIX: seul le client mutt est recommandé depuis le shell UNIX. Vous pouvez aussi configurer un .forward. Le nouveau système travaille en format Maildir: pour le moment l'indication de mail au login ne fonctionne pas.
2003-03-28 Migration services mail. Les utilisateurs doivent configurer la lecture des mails depuis pop.alphanet.ch ou imap.alphanet.ch, et tester que leur compte fonctionne.
2005-01-15 Mise en exploitation système multi-homed, services également sur shakotay.dyndns.org.
2006-10-03 Suppression protocole V1 de SSH.
2006-10-23 Mises à jour, notamment Mailman.
2006-10-28 Redémarrage, nouveau kernel avec support QoS?.
2007-03-28 Déplacement des services à Cernier; nouvelle adresse IP 80.83.54.2; mise à jour du DNS; rétablissement du service fax et voix-sur-IP
2007-04-25 Passage de clamav en mode daemon (pour despam-check)
2007-09-20 Mise en marche de enforce-limits (mrtg-stats)
2008-03-01 Correction de clamav en mode daemon qui pouvait ne pas détecter tous les virii
2008-04-01 Activation de la nouvelle vitesse 15'000/1500 sur la liaison 1. La liaison 2 reste inchangée à 3500/600.
2008-04-01 Changements clés SSL locales IMAP/POP, valables 10 ans (!)
2008-10-24 et 2008-10-25 passage au nouveau serveur
2008-11-16 Ajouté supporté SASL. Pas très sûr car pas chiffré. Un peu bricolé, voir le README de mail-admin, pourrait se casser en cas de mise à jour de courier-authdaemon.
2008-11-17 Ajouté support STARTTLS et certificat local
2008-12-25 / 2008-12-26 Ajout de RAM dans virtual.alphanet.ch et tests
2009-01-24 Passé à une alimentation plus robuste pour virtual.alphanet.ch, en espérant que cela corrige les problèmes d'arrêt en cas de milli-coupure UPS
2009-02-06 mise à jour de la VM shakotay: arrêt de tous les services!
2009-03-22 Corrigé la configuration Postfix pour ne pas rejeter au moment de la connnexion des adresses IP dans les listes RBL: on le fait maintenant lors du RCPT-TO, ce qui permet un login SASL
2009-09-03 Installation du firmware dd-wrt v23sp2 sur le buffalo de la rue d'Epervier; modifications de la configuration antenne et augmentation de la sensibilité de réception.
2009-09-27 Simplification du proxy transparent: plus de tproxy, usage de squid uniquement (en VZ)
2009-11-15 Passage à Apache2 dans shakotay
2009-11-30 Nouveau débit 25'000/2'500 sur liaison 1 (net2000).
2009-12-19 Nombreux problèmes avec le serveur de mail de bluewin; ils ont ajouté notre adresse IP de manière à éviter les délais. Corrigé le fonctionnement de la signature GPG des news.
2010-01-30/31 Mise à jour de la VZ shakotay à lenny
2010-04-10 Suppression de l'effacement automatique du folder Trash IMAP après 7 jours.
2010-08-20 Plus de newsgroups USENET et réactivation du lien news.imp.ch
2010-09-30 Remplacement disque de sauvegarde/historique de 1 TB par 2 TB
2011-01-29 Remplacement modem ADSL/ISDN par ADSL2+/ISDN, notamment en raison des problèmes de microcoupures récemment constatés
2011-03-18 Redémarrage, mise à jour kernel, tests divers, configuration des VLANs sur eth3 (WiFi): 7:30-10:45
2011-03-24 SMART indique que /dev/sda a des erreurs; aucune erreur n'est visible mais des ralentissements importants (blocage pendant plusieurs minutes) sont constatés: le disque est donc changé, arrêt du système de 18h à 18h30
2011-04-23 Changement du mode de refresh du login HTTPS de meta refresh à Javascript refresh modifié, pour compatibilité avec le logiciel déficient et non standard Microsoft Internet Explorer
2011-12-26 Migration au nouveau serveur
2011-12-27 Augmentation des durées de stockage des news, en raison de la nouvelle capacité disque
2012-01-31 Test UPS, redémarrage et mise à jour kernel
2012-02-16 18h-22h Mise à jour vz104 (la plupart des services affectés).
2012-05-15 Maintenance virtual, arrêt de tous les services 9h-13h, mise à jour du kernel et drivers dahdi, vérification de tous les filesystems
2012-06-06 Ajout du support TLS sur news.alphanet.ch (NNRP, port 119). URL snews://news.alphanet.ch:119/. Copié la clé wildcard CAcert depuis apache2, mis bonnes permissions; testé avec openssl s_client -host localhost -port 119 -starttls smtp
2012-09-21 Basculement sur nouvelle liaison Internet, changement des DNS, ancienne liaison via proxy sur alix, nécessite un redémarrage de virtual et donc de tous les services
2012-09-26 19:20-19:25 Désactivation ancienne ligne et proxy alix, courte coupure du nouveau raccordement pour recâblage
2014-04-20 22h-23h Passage à nouveau serveur wheezy
2014-08-22 Remplacement du certificat HTTPS *.alphanet.ch (wildcard) de CAcert par un de http://startssl.com/ -- avantage: reconnu par tous les navigateurs; risque: invalidable par OCSP
2015-01-23 Débit accès principal de 75/7.5 MBit/s à 200/20 MBit/s
2015-03-07 Mise à jour de 16 à 32 GB de RAM
2015-09-11 Remplacement de l'UPS par l'ancienne, avec de nouvelles batteries
2016-01-29 19h-22h Mise à jour login.alphanet.ch (panne de tous les services: cf RT#624). Reprise de la plupart des services vers 22h15. Tests vont se poursuivre ces prochains jours.
2016-09-06 Activation du certificat SSL validé pour le SMTP (postfix)
2016-12-09 mise à jour virtual samedi 21h-22h30
2017-01-16 Mise à jour débit ligne secondaire init7 à 80M/15M (~8 mégaoctets/s downstream, 1.5 mégaoctets/s upstream
2017-03-04 Mise à jour kernel virtual vers 3.16.39-1+deb8u1 de 3.16.36-1+deb8u2, recréation clé USB; redémarrage et test
2017-03-12 Mise à jour kernel virtual vers 3.16.39-1+deb8u2, recréation clé USB; redémarrage et quicktest
2018-05-10 Redémarrage virtual avec nouveau kernel
2018-07-29 installé intel-microcode, à tester: intel-microcode: microcode will be updated at next boot; done 2018-08-15 19:50
2018-08-20 install new certif *.alphanet.ch upto 2020-11-15
2018-08-23 greylisting passé de 1000 secondes à 300 secondes, ne semble pas poser de problèmes
2018-08-31 ns2.alphanet.ch / ipv6-dns.alphanet.ch est maintenant sur la nouvelle architecture Hetzner, l'ancienne encore déployée le temps que les requêtes disparaissent
2018-09-05 activation de mon ancien 193.72.186.0/24, voir ces pings globaux, y compris le reverse DNS
2018-10-17 ajout 193.72.186.6 pour HTTP/HTTPS www.alphanet.ch, puis le 18 suppression de 46.140.72.222
2018-10-26 au fur et à mesure, on a remplacé 46.140.72.222 par 193.72.186.6 dans le DNS, toutefois il a fallu corriger pour nntp.alphanet.ch et smtp.alphanet.ch, vu que ces deux adresses sont utilisées pour de "l'authentification" NNTP et SMTP (anti-spam sur Received: et ELO: il y a eu quelques warnings 4xx et éventuellement un délai) respectivement; on a mis les deux adresses IP sur smtp.alphanet.ch, ce qui a semblé fonctionné, et on a aussi doublé NNTP, ça semble ok le 27; on a mis aussi un forçage en sortie de 193.72.186.6/119; marche sauf pour poupinou, désactivé car le newsmaster ne répond pas; seul quelques services volumineux et ns1.alphanet.ch (pour éviter le 2/3 load-balancing) sont encore uniquement en 46.140.72.222
2019-12-29 nouveau système de gestion des comptes NNRP https://news.alphanet.ch/

Problèmes et changements

Date quoi
2003-03-28 Suspension temporaire services d'archivage news et mail
2003-03-29 Installation anti-spam global basé sur spamassassin.
2003-04-28 www.alphanet.ch est maintenant la même chose que www-internal.alphanet.ch.
2003-05-01 Ajouté d'autres RBL pour l'anti-spam.
2003-07-04, 8h-10h Réinstallation deuxième disque RAID1.
2003-08-17 Ajout serveur DNS local pour pallier aux problèmes de net2000.
2003-11-02 11h-11h40 Réinstallation deuxième disque RAID1.
2003-12-21 10h-11h30 Maintenance (cartes).
2004-02-19 Mise à jour de mailman, ayant causé un DoS? jusqu'au 20 (messages retenus). Patch.
2004-02-18 DoS? SYN d'Australie. Connexion difficile.
2004-02-20 23h Redémarrage (sécurité).
2004-02-28 16-18h Panne téléréseau.
2004-03-03 15h Nouvelle version système anti-spam despam-check.
2004-03-16 Reverse DNS (PTR) pour shakotay.alphanet.ch .. faux.
2004-03-19 Reverse DNS (PTR) pour shakotay.alphanet.ch .. juste.
2004-03-20 16h-20h Modification matériel
2004-05-09 2h-10h Panne accès Internet.
2004-06-09 Ajout anti-virus clamav via despam-check.
2004-06-29 Panne modem net2000 17h-21h, resetté. Egalement panne CAPI, isdnactivecards restart.
2004-07-04 20h30-2004-07-05 7h30 Panne net2000, resetté.
2004-07-19 15:00-16h00 Panne net2000, resetté, téléphoné.
2004-07-26 - 2004-07-28 Système de mail peu performant, système chargé, délai importants de livraison.
2004-07-28 18h - 2004-07-29 0730 Panne net20000. Resetté modem à plusieurs reprises.
2004-07-29 19h10 - 21h45 Panne net20000. Resetté modem à plusieurs reprises.
2004-07-29 23h45 - 2004-07-30 11h50 Panne net20000. Resetté modem à plusieurs reprises. net2000 change le routeur à La Neuveville.
2004-07-30 15:50 - 15:55 Panne net20000. Resetté modem.
2004-08-01 21:00 - 01:00 Panne net20000. Resetté modem à plusieurs reprises.
2004-08-03 23:00 - 01:00 Microcoupure alimentation, reboot, fsck.
2004-08-16 10:50 - 12h20 Microcoupure alimentation, net2000 a un problème.
2004-08-17 13:45 - 13h50 Coupure net2000.
2004-08-27 10:45 - 11h00 Coupure net2000.
2004-08-30 16:00 - 16h30 Coupure net2000, resetté modem.
2004-09-07 10:45 - 10h55 Coupure net2000, resetté modem.
2004-09-13 matin Instabilité net2000.
2004-09-27 10:20 - 11:50 Panne net2000. Resetté modem.
2004-09-28 09:20 Patch pour rfc822.py pour python2.1 et MailMan?, corrige apparemment problème prenom.nom dans l'accès aux listes.
2004-10-08 22:45 Coupure de courant; perte de liaison net2000.
2004-10-08 22:45 Mise à jour spamassassin à 2.64-1 ainsi que du système despam-check (notifications).
2004-10-18 12:00-13:50 Panne net2000.
2004-11-10 13:55-14:05 Coupure brève téléréseau. Reset du modem.
2004-11-10 15:20-20:10 Coupure brève téléréseau. Reset du modem.
2004-11-10 09:20-09:50 Coupure brève téléréseau. Reset du modem.
2004-11-18 11:15-16:50 Coupure brève téléréseau. Reset du modem. Appelé support. Resetté modem ...
2004-11-21 13:30-14:00 mise à jour kernel + reboot
2004-11-21 15:30-15:35 Reboot manuel par erreur
2004-11-25 17:50 Mise à jour nouvelle version Asterisk
2004-11-25 19:05 Crash probablement dû à CAPI
2004-11-25 19:20 Regénération base INN2 dû au crash; serveur de news inaccessible pendant 30 minutes
2004-11-25 11:40-11:55 Installation carte HFC-s
2004-12-01 11:30 Mise à jour mail-admin et despam-check: configuration actuelle: virus détectés sont considérés comme spam via l'interface normale désormais
2004-12-12 20:15-20:50 Panne liaison Cablecom à Neuchâtel; extérieur net2000 non accessible.
2004-12-14 6:30-7:00 Panne liaison Cablecom à Neuchâtel; extérieur net2000 non accessible.
2004-12-18 13:30-14h Panne, resetté modem.
2004-12-18 15h-16h40 Panne, resetté modem.
2004-12-18 17h au 2004-12-20 8h40 Panne, resetté modem, contacté support. Payé 6.50. Réappelé lundi. Arrêt modem 15 minutes, allumage avec prise serveur débranchée 5 min, rebranchement.
2004-12-24 12:00 - 2004-12-25 12:00 Panne connectivité; appelé support payant (net2000 a fermé à 11h apparemment) à 14h30. Dépensé 5.-. Le technicien rappelle à 18:30. net2000 censé me rappeler. Je rappelle le 25 et redépense 5.-. Le technicien est censé m'appeler dès 11h. A 12h, la connexion refonctionne d'elle-même.
2004-12-23 2004-12-25 Système de mail en surcharge; attaque de spammers. Effacé la queue de MAILER-DAEMONs (environ 70'000 spams). En bref quelqu'un spamme avec des adresses @vulcan et @shakotay et nous recevons les bounces ... modifié les règles pour rejeter le plus vite possible.
2005-01-01 12:30 Panne net2000. Reset court du modem. Reset de 15 min du modem avec débranchement de 5 min supplémentaire des équipements. Appelé le numéro à 2.50 / minute à 14:30; coût 5.-. Le technicien devrait rappeler dans l'après-midi. Envoyé mail à net2000 (support + 3 personnes) depuis horus. Le technicien rappelle à 17:25 et après réexplications constate que le modem est déconnecté et ouvre un ticket chez net2000. Les techniciens de net2000 devraient soit corriger le problème soit me rappeler. Pas de rappel. La liaison repart d'elle-même dimanche vers 11h40. Appel depuis numéro anonyme de net2000 lundi 3 janvier à 17:10, erreur d'amplificateur à la Neuveville dans l'immeuble Tempé 8, devrait être corrigé. Appel du responsable de service le 5, explications détaillées.
2005-01-03 14:00 Panne net2000. Reset court du modem.
2005-01-05 21:20 - 2005-01-06 12:00 Panne shakotay: disque LED 1 allumée, système bloqué.
2005-01-06 12:30 Reconstruction système de news INN2.
2005-01-13 22:50 - 22:56 Panne shakotay: probablement due à la carte C4, système bloqué.
2005-01-15 22:11 - 22:20 Ajout carte réseau shakotay pour ADSL.
2005-01-25 00:00 - 2005-01-25 7:30 Connexion au-dehors du réseau interne net2000 impossible, connexion via shakotay.dyndns.org possible.
2005-01-26 17:00 - 17:15 Panne shakotay: probablement due à la carte C4 ou HFC, système bloqué.
2005-02-13 20:25-20:30 Arrêt par erreur de shakotay.
2005-02-16 6:20-6:35 Panne net2000.
2005-02-17 12-13h Arrêt pour remplacement C4 par HFC; divers problèmes d'IRQ et de placement des cartes.
2005-02-20 11h15-11h25 Crash shakotay (HFC sharing IDE2?).
2005-02-20 12h45-13h10 Crash shakotay (HFC sharing IDE2?).
2005-02-20 14h10-14h20 Crash shakotay (HFC sharing IDE2?). Installation pilote avec sharing IRQ (HFC).
2005-02-20 14h10-14h20 Crash shakotay (HFC sharing IDE2?). Suppression IDE2.
2005-02-27 11h20-12h Réinstallation nouveau disque RAID1.
2005-03-05 11h50-12h Crash shakotay (HFC sharing IDE2?). Suppression IDE2.
2005-03-12 09h40-11h55 Installation 512 MB RAM et test de base
2005-03-20 11:25 Panne net2000. Reset du modem sans succès. Passage sur ligne ADSL de secours. Arrêt du modem net2000 de 15 minutes. Avertissement net2000 par e-mail à 12:35. Reprise ligne normale à 00:00.
2005-03-27 Installation R1. Problème. Suppression R1 (IDE2).
2005-04-01 22:00 Panne net2000 probablement au niveau du routeur central Passage sur ligne ADSL de secours. Pas encore de changement DNS. Remis en fonction manuellement à 07:45
2005-04-02 Corrigé règles fw interne manuelle (reconfig mls) qui empêchaient statistiques eth0
2005-04-03 13:00 Panne net2000. Passage sur ligne ADSL de secours. Pas de changement DNS. Remise en fonction sans rien faire à 13:40.
2005-04-11 21:45-22:30 Panne net2000. Eteint modem 15 min.
2005-06-03 11:00 halt par erreur. Redémarrage PostgreSQL? manuel après effacement lock.
2005-06-21 16:00 - 17h15 Panne net2000, éteint modem 15 secondes, 15 minutes, tél support technique.
2005-06-28 6:00 - 6h45 Panne courant. L'UPS est en fin de vie.
2005-06-29 09:40 - 9:50 Panne net2000, éteint modem 15 secondes.
2005-07-07 22:20 - 23:40 Problème mémoire, investigations.
2005-07-18 10:00 - 12:40 Upgrade vers sarge.
2005-07-18 12:40 - 13:30 Tests et adaptations.
2005-07-18 13:30 - 15:50 Mise en ligne partielle (SMTP/HTTP non accessibles). Ensuite mise en ligne.
2005-07-29 6:30 - 6:50 Panne courant, reboot shakotay malgré UPS.
2005-08-14 19:25 - 21:25 Changement kernel et tests.
2005-08-20 07:05 - 9:30 Panne net2000, éteint modem 15 minutes.
2005-11-09 10:00 - 11:26 Panne net2000, éteint modem 15 minutes.
2005-11-09 16:00 - 18:00 Interruption service mail pour maintenance.
2005-11-27 18:25 - 18:30 Mise à jour kernel (VServer).
2005-11-29 09:05 clamav de debian-volatile et Postfix greylisting activé
2005-12-17 13:10 Arrêt involontaire
2005-12-31 09:30-11:20 Panne de courant
2005-12-31 11:20-12:00 Téléréseau en panne
2006-01-17 11:50 Panne net2000, éteint modem 30 sec
2006-01-20 5:50-09:20 Panne net2000, éteint modem 30 sec
2006-01-22 09:25-09:30 Panne net2000, éteint modem 30 sec. Reset modem ADSL aussi.
2006-01-23 4h, 11h, 15h Panne net2000, éteint modem 30 sec.
2006-01-28 20h25-20h30 Panne net2000, éteint modem 15 sec.
2006-01-28 21h04-21h06 Panne net2000, éteint modem 5 sec.
2006-01-29 02h00-08h00 Panne net2000, éteint modem 5 sec.
2006-01-31 00h45-07h Panne net2000
2006-02-01 21h30-21h40 Panne net2000, éteint modem 5 sec.
2006-02-06 00h45-08h30 Panne net2000, éteint modem 5 sec.
2006-02-07 01h45-06h00 Panne net2000, éteint modem 5 sec.
2006-02-08 00h15-0h25 Panne net2000, éteint modem 5 sec.
2006-02-10 20h20-20h35 Panne net2000, éteint modem 5 sec.
2006-02-16 00h20-07h55 Panne net2000, éteint modem 5 sec.
2006-02-20 01h20-04h55 Panne prévue net2000
2006-02-26 00h20-09h55 Panne net2000 et ADSL, éteint modems 5 sec.
2006-02-27 23h20-08h55 Panne prévue net2000
2006-02-02 2h20-06h55 Panne net2000, éteint modem 5 sec.
2006-02-02 17h10-17h15 Panne net2000, éteint modem 5 sec.
2006-02-02 12h00-18h30 Panne net2000, remplacé modem, basculé services sur ADSL, rebasculé avec nouveau modem.
2006-03-05 11h00-11h15 Panne de courant.
2006-04-09 Arrêt pour changement kernel et ajout disque-dur et migration de données; suppression cartes HFC. Quelques doublons de mails (oublié rsync --delete)
2006-04-09 Divers tests de fonctionnement
2006-04-09 Crash dû prob. 2e contrôleur IDE, temporairement désactivé
2006-05-01 problème swapper (NULL pointer suite à find). Plusieurs processus en D dont le serveur de news.
2006-06-01 ext3: journal aborted; reboot; fsck; cause indéterminée
2006-06-01 panne net2000; reprise automatique
2006-08-22 Coinçage système (type semaphore ou disque); RESET; au boot quelques warnings sur hdg timeout, ensuite OK; surveiller smartd
2006-10-25 23:00-2006-10-26 09:10 Instabilité et panne net2000; apparemment corrigé après RESET du modem pendant 15 minutes
2006-10-28 Lors d'envoi de gros mails, l'interactivité de la ligne baisse, délais jusqu'à environ 1 seconde. Le bug est chez net2000 (comme précédemment), mais je peux y remédier avec du QoS?
2006-12-07 22:00 Panne connexion net2000. Basculement manuel partiel sur ADSL à 00:00. En fonction à nouveau vers 8h40.
2007-01-17 23:20 Panne connexion net2000. Arrêt du modem net2000 pendant 5 minutes.
2007-03-02 17:00 Problème avec le DNS1 de net2000 utilisé comme forwarder (long timeouts), passé à DNS2.
2007-03-19 Non fonction ISDN en raison du déménagement. Panne liaison secondaire ADSL
2007-03-21 17:25 Corrigé problème fs, vérification. Modifié errors=panic
2007-03-21 17:15 - 2007-03-23 10:00 Postgrey refuse 2/3 des mails
2007-03-23 12:00 au 2007-03-24 14:00 Panne liaison principale
2007-03-29 18:00 Liaison secondaire (ADSL) à nouveau en fonction
2007-03-23 - 2007-03-30 Clé SSL IMAP/POP expirée, changée
2007-03-29 6:00-6:30 Panne net2000 (symptôme: toutes LED allumées), reset modem, ok
2007-04-01 4:30-9h Panne net2000 idem, reset modem, ok
2007-04-03 4:00-7h30 Panne net2000 idem, reset modem, ok
2007-03-19 - 2007-03.05 L'adresse IP de shakotay (80.83.54.2) est dans un sous-réseau marqué comme dialup chez mail-abuse.org. Contacté net2000, ils font le nécessaire. En attendant, certains domaines ont été configuré dans transport pour aller via smtp.net2000.ch. Corrigé le 2007-04-05. Ai dû ensuite contacter freemail.de séparément (sinon le reste OK)
2007-04-07 3h-10h Panne net2000 idem, reset modem, ok. Ajouté Theben-Timer 6h-6h30.
2007-04-13 21:40 Coupure courant: switch principal a eu besoin d'un reset, ainsi que modem ADSL sinon tout marchait.
2007-04-16 4:00 Coupure net2000, reset automatique à 6:00
2007-04-27 Coupure de courant durant la nuit, annoncée
2007-05-01 06:00-08:00 Coupure net2000
2007-03-23 Assez régulièrement (tous les 2-3 jours), la connexion net2000 s'interrompt vers 4h du matin, éventuellement plus tôt. Un reset du modem est nécessaire. Pas encore informé net2000. En fait la connexion s'interrompt plus tôt (cf http://stats.alphanet.ch/), mais mon système d'alarme par SMS n'est pas actif la nuit). Cela pourrait être lié à la charge de la liaison montante en raison des sauvegardes. Tester encore un peu. Pour le moment ajouté une minuterie à 6h-6h30 chaque jour. Supprimé la minuterie pour voir. Le problème se pose toujours. net2000 fait une mise à jour du modem. Le problème semble ne plus se poser.
2007-03-23 La zone DNS alphanet.ch est en mode dynamique, refaire une exportation statique avec timeouts corrects. Effectué.
2007-05-16 Le niveau de spam (surtout GIF + bourse) a beaucoup augmenté. J'ai modifié manuellement les règles spamassassin globales, cela semble avoir un effet positif.
2007-04-03 L'ancienne adresse IP 80.83.46.147 a toujours un reverse incorrect. Recontacté net2000 en mai. Corrigé le 18 mai.
2007-05-31 Augmenté la période de rétention des logs (en changeant /etc/cron.daily/sysklogd et non pas /etc/cron.weekly/sysklogd)
2007-06-27 Interblocage shakotay 03:00-09:00
2007-06-28 Transfert d'un MSN du raccordement ISDN chez sipcall. Pas de panne particulière.
2007-07-05 Suppression de 4 MSN du raccordement ISDN Swisscom. Panne d'environ 8 heures pour la liaison complète et de trois jours pour le nouveau numéro principal 032 841 47 74. L'appel au numéro 175 a aidé. ADSL pas encore fonctionnel après 8 heures.
2007-07-23 Problème d'interblocage dans l'historique de connexion (w, ps, etc), sinon le reste est OK. Loadaverage 1500. Reboot.
2007-08-09 defang.pl: plusieurs processus en D (sur un sémaphore), load 143, quelques mails renvoyés avec une erreur. Redémarrage avec e2fsck manuel pour vérifier.
2007-09-28 Dans certains cas, très rares, des mails sont bloqués par Mailman dans shunt/ suite à une erreur Python dans Utils.py. Déterminer le problème exact. Pas reproduit.
2007-10-12 - 2007-10-14 Il semble que le produit Trend Micro RBL+ bloque shakotay.alphanet.ch (bloc 80.83.48.0/20), notamment rpn.ch. Informé, corrigé. Pas de mails perdus.
2007-10-24 Panne téléréseau Cernier (environ 15 minutes).
2007-11-09 Panne courant, reboot shakotay + coinçage switch
2008-01-14 Effacement par erreur de /var/lib/mailman/lists: arrêt de postfix (MTA) et mailman pour restaurer les sauvegardes (sauvegarde DDS-4 complète de vendredi et incrémental GPG distant de cette nuit). Arrêt services mail 9h30-12h
2008-01-24 - 2008-02-06 Problème avec le feed USENET principal (impch) ainsi que le feed secondaire (freenix). Contactés. freenix remet en place le feed. Nouveau feed avec woody.ch tant que ImproWare est dans les choux. Je complète temporairement avec suck manuel sur news.net2000.ch. Ajouté aussi un feed assez complet en Russie. ImproWare est de nouveau accessible dès le 2008-02-06. Rétablissement complet de la situation, avec une meilleure redondance.
2008-04-01 La performance upstream a été testée (170 kilobyte/s); la performance downstream est à max 900 kilobyte/s. S'agit-il d'un problème net2000 (cf lettre qui annonce la mise en place progressive) ou d'un problème de réseau (p.ex. interface 10 plutôt que 100?). Attendre un peu et éventuellement tester. Le 2008-04-02 la performance est de 1.3 à 1.5 MByte/s. Le problème était probablement chez net2000.
2008-04-02 Maintenance shakotay (déplacement serveur sur rack)
2008-07-23 Coinçage Apache: restart apache nécessaire. Peut-être le moment de mettre à jour ...
2008-08-25 Panne net2000 (10h-10h30)
2008-09-01 Attaque DDoS sur smtp; installation de filtrage et évaluation. Vérifié que nous avons les syncookies. Bloqué un range en Ukraine. Augmenté le nombre de daemon smtpd (peu de charge, ou I/O)
2008-10-09 Attaque DDoS sur smtp; installation de filtre simple en limite de connexion par minute
2008-11-23 Panne de courant, cette fois-ci sans que l'UPS ne puisse réagir à temps. Recréé historique des news
2008-12-12 Problème avec l'anti-spam: Mails écrits avec le logiciel propriétaire Microsoft Outlook Express passant par sunrise.ch (== Google maintenant) ont un Message-ID: qui est interprété comme spam par spamassassin (20_*). Adapté temporairement la configuration
2008-12-31 - 2009-01-02 Panne de courant problématique
2009-10-21 Déconnexion de net2000, reset du modem nécessaire, panne d'environ 45 minutes
2009-11-17 Problème avec la livraison des mails vers bluewin, impossible via net2000. Redirigé le 2009-11-18 via adresse dynamique sunrise. Semble être un problème de surcharge / DoS chez Swisscom. Problème disparu à midi.
2009-11-18 Instabilité liaison net2000. Suivi d'une panne totale. Basculement sur la liaison secondaire ADSL. Réparation par technicien net2000 le 20 à 9h30. Rebasculement vers 10h
2009-11-28 16h-20h Mise à jour du kernel de virtual après tests, protection page zéro activée.
2009-12-02 - 2009-12-03 Modem ZyXEL? en panne: service fax et login modem/ISDN affecté. Remplacé alimentation par une du stock.
2010-01-13 10:15-10:20 Redémarrage VZ shakotay (problème processus D clamav)
2010-02-11 8:00-12:20 Arrêt liaison principale net2000 pour changement du câble téléréseau
2010-09-30 9:30-13:50 Panne net2000 liée au travaux sur le téléréseau (téléphoné à 12h20)
2010-10-01 10:15-11:50 Panne net2000 liée au travaux sur le téléréseau (téléphoné à 11h30)
2010-10-05 9h35-9h50 Panne net2000 liée au travaux sur le téléréseau
2010-10-25 Panne du NT2ab indéterminée, refonctionne après power-off de quelques minutes
27 sept - 30 nov 2010 Travaux rue de l'Epervier (adaptation du téléréseau): durant une dizaine de jours, des travaux, durant cette période, pourraient affecter la connectivité principale par de brèves coupures. Plus de détails suivront. Malheureusement plusieurs coupures non annoncées ont déjà eu lieu, voir ci-dessous.
2010-11-28 Apache2 était en panne à 6h. Pas d'informations dans les logs.
2010-12-10 Panne de net2000 de 9h15 à 11h45 (reprise automatique), et vers 16h20 (reset du modem par précaution)
2011-06-04 22:25-22:30 Surtension, arrêt de l'UPS et de tous les services
2011-06-04 17:20-17:35 Test de l'UPS: non fonctionnelle, a abouti à l'arrêt de tous les services
2011-06-12 9h25-9h40 Remplacement et test nouvel UPS
2011-06-22 16h-17h15 La foudre n'est pas tombée loin: 2 access point Buffalo morts (sur 3), 1 modem ZyXEL 2864I mort, 2 ports Ethernet de virtual (sur 4) sont inutilisables, le port série interne est inutilisable. Passage en mode dégradé Ethernet avec interne et net2000 (ADSL et WiFi désactivés). AP désactivés. Remplacé le ZyXEL 2864I et connecté sur un port USB, quelques soucis de MSN.
2011-06-22 19:24 Mise à jour du firmware du nouveau modem ZyXEL a corrigé le problème des MSN et donc du routage fax.
2011-06-22 20:44 Diagnostic sur le modem ADSL2 ISDN ZyXEL 660 ME: non fonctionnel (test avec l'ancien modem OK)
2011-06-25 14:20-14:40 ajout carte PCI-Express dual-port sur virtual, redémarrage
2011-06-25 17:00-17:20 compilation et test pilotes carte dual-port pour lenny, assignation des noms via udev.d
2011-06-25 18:50-19h45 redémarrage, test RAM rapide et remise en service WiFi partiel et ADSL temporaire
2011-08-11 19:15 tuage apache2 manuel et redémarrage vz103 (Wiki), suite à problème usage mémoire dans cette VM
2011-09-16 20h-23h Mise à jour Foswiki sur vz103 (https://wiki.alphanet.ch/)
2011-10-19 22:00 - 2011-10-20 06:45 problème serveur SMTP indéterminé redémarré; peut-être dû à un déni de service ayant amené à consommer trop de file-handles (augmenté de 10k à 15k/20k). Peut-être réfléchir sur le nouveau serveur à une nouvelle répartition (vzsplit)
2012-02-05 20h-21h Fusible sauté sur accès Internet principal, recâblage
2012-02-06 9h Remplacement temporaire fusible, recâblage accès Internet principal.
2012-02-06 14:15-14:20 Remplacement fusible définitif, arrêt Internet principal rapide.
2012-02-05 13:00-15:00 Journal aborted sur vz104, démonté, fsck, rien de spécial, remonté et redémarré cette VZ
2012-02-05 18h-19h Problème similaire
2012-02-08 7h-2012-02-09 7h Problème lié au filesystem; regénération des filesystems 103 et 104, vérifications des sauvegardes, revert kernel, tests RAM et I/O, remise en production
2012-02-09 21h- Recréation des bases de données du serveur de news
2012-06-02 - 2012-06-04 Taux d'erreurs enregistré par mrtg et performance liaison principale net2000 très dégradée de 25 MBit/s - 2.5 MBit/s à environ 2.5 MBit/s symétrique. Remplacé le câble modem net2000 vers virtual port eth1 par un câble neuf, plus court. Taux d'erreur abaissé d'environ 200 erreurs enregistrées par l'interface à moins de 1 par 30 secondes. Débit estimé montant similaire, descendant plus grand que 2.5 MByte/s. Quelques coupures d'exploitation de moins de quelques secondes le 2012-06-04.
2012-07-31 11:30-11:50 Deux reboots de virtual.alphanet.ch en raison du test d'UPS qui a trop bien marché, et d'un problème de négociation sur eth2. Problèmes corrigés.
2012-08-28 14h-14h30 Installation nouvelle ligne 60M/6M, avec une courte interruption de la ligne principale
2012-08-28 Test de la nouvelle liaison Internet pour news.alphanet.ch (service USENET news NNRP), quelques soucis dû à un IRS un peu trop sensible (coupures de 4h la nuit)
2012-10-25 9h30-10h30 Changement compteur électrique et nouveau kernel
2013-01-27 Erreur de lecture sur /dev/sdc, compensée grâce au RAID1. Le SMART montre peu d'infos intéressantes, sinon que Raw_Read_Error_Rate avec smartctl -a montre que /dev/sd[bc] ont pas mal de soucis. hdparm -t montre aussi une grande baisse de performance sur /dev/sd[bc]. Remplacement de /dev/sdc par un ancien disque de sauvegarde rsync de 1 GB, et reconstruction en cours. hdparm -t bien meilleur sur ce disque. Utilisé les fonctions de selftest de 3 heures pour déterminer si b est véritablement en mauvais état: même si le compteur brut Raw_Read_Error_Rate est élevé et a encore augmenté avec le selftest, les valeurs smart n'ont pas bougé: une surveillance de la performance hdparm -t a été planifiée dans RT.
2013-02-03 Alarme smartd sur /dev/sdb (on l'avait soupçonné d'être défaillant aussi, mais les divers selftest n'avaient rien donné). Remplacé et rebuild en cours (un peu lent et chargeant /dev/sda)
2013-04-20 8:21-8:31 Crash indéterminé. Modifié config BIOS pour ventilateurs au max. A part la disparition d'une des valeurs d'un senseur, aucun effet.
2013-04-25 2h30-7h10 arrêt du système inopiné, problème de refroidissement supposé, arrêts vendredi soir pour inspection, modification ajout rc.local pour ignorer processus idle dans processor frequency scaling
2013-04-26 mis tous les processeurs à 800 MHz max, détermination du problème de ventilateur, ajout temporaire petit ventilateur front soufflant
2013-05-03 remplacement ventilateur arrière virtual (tirant), remise en exploitation normale, tests variés CPU-burn et températures; script automatique pour surveillance température et action de clippage vitesse CPU (approche KISS)
2013-05-04 ajout ventilateur de côté, d'abord tirant, puis ensuite soufflant, semble meilleur pour température MB, voire CPU (encore que), peut-être aussi pour temp1; analyser sur plus long terme pour disques p.ex. aussi
2013-05-05 22:10-22:20 redémarrage pour test UPS puis déconnexion UPS
2013-05-03 - 2013-05-10 UPS "LB", test arrachage: panne; remplacement UPS nécessaire; nut temporairement désactivé; UPS remplacée et testée, nut réactivé
2014-03-23 3h-11h45 Panne routeur cablecom, symptôme: LEDs normales mais pas de trafic, routeur 46.140.72.217 répond au ping, mais TTL exceeded dans l'autre sens. Arrêt 30 secondes, rebranchement et OK
2014-05-08 22:40 à 2014-05-09 7:00 panne totale liaison principale; ensuite problèmes de stabilité entre 7h et 7h40
2014-09-03 20:53 - 22:53 Panne totale liaison principale Cablecom
2014-11-21 16:00 - 18:26 Abus par un utilisateur réel d'ALPHANET (spam); mot de passe pas si facile donc probablement phishing; changé le mot de passe et débloqué sur http://att.net/blocks; vérifié pas dans listes anti-spam une semaine après (cf ticket #593)
2014-11-29 15:30 - 17:45 Panne routage externe Cablecom
2015-05-28 certains sites inaccessibles, valeurs en dehors de 14/200/20 via test ookla; reboot routeur corrige le problème, informé Cablecom; le 2015-06-02 ils suggèrent reset hardware du modem/routeur. Effectué à 9:28. Dû changer de port car sinon pas en GBit et vitesse max 100 MBit/s descendant. Avec test ookla depuis vz204, 11 ms, 219.21 MBit/s et 21.93 MBit/s.
2015-06-24 redémarrage de virtual par erreur
2015-07-17 Panne CATV minuit à 9h
2015-10-22 Certains subnet de cablecom ne peuvent plus nous atteindre; support contacté: problème de routage sur le routeur central
2015-10-26 Panne entre minuit et 3h de cablecom
2016-03-10 Panne annoncée init7 de 4h à 8h
2016-04-21 03:00-23h45 Connexions et flux sortants impossibles; DNS et SMTP sortant dévié sur liaison secondaire. Pas de problème pour recevoir des connexions et flux; annoncé à Cablecom à 10:35. Problème résolu par restart routeur Cablecom.
2016-02-15 Délais plus importants sur liaison principale, Cablecom investigue
2016-04-29 Downgrade au modem/routeur et débit précédent: 250M/25M: les délais sont meilleurs, mais pas aussi bons qu'en février, le prix n'est pas baissé.
2016-06-08 Panne de courant d'environ 30 minutes, UPS a tenu mais accès réseau principal en panne durant ce laps de temps ou un petit peu plus
2016-08-03 8h30-10h Travaux sur réseau électrique
2016-08-03 10h30-12h45 Problème d'authentification sur le serveur SMTP
2016-07-28 Panne liaison secondaire init7. Annoncé le 2 août. Swisscom a apparemment temporairement câblé une liaison téléphonique de secours le 9 août, cela refonctionne. Finalisation du câblage autour du 22 août. Problème résolu.
2016-09-05 14h30-15h30 Panne liaison principale Cablecom, apparemment due à des travaux sur le téléréseau.
2016-10-21 7h30-8h40 Diverses coupures de courant affectant la liaison principale (contrôles électriques)
2016-11-04 Remplacement du compteur électrique; l'UPS a tenu
2016-11-03 -2016-11-05 Quelques erreurs éparses sur /dev/sdb rattrapées avec miroir RAID1; le disque est à changer car sa table de remplacement est pleine; Remplacement et reconstruction ont été faits sans downtime.
2016-11-15 9h-11h Downtime ligne principale Cablecom
2016-12-11 9h-11h15 Downtime ligne principale Cablecom
2016-12-16 tests redémarrage virtual
2016-12-22 coupure de courant de 1h30, arrêt virtual
2017-02-02 4h30-7h50 Connexion principale en panne: eth1 down; dû resetter avec mii-tool -R puis -r; problème câble?
2017-03-26 16h30-18h30 Routeur Cablecom planté; symptôme: pas de route sur l'extérieure, 46.140.72.217 atteignable de l'intérieur, reset, OK
2017-04-28 au 2017-05-05 déménagement coupure probablement 1/2 journée, avec quelques plus petites coupures possibles. Finalement panne le jeudi 4, 2 heures dans la soirée
2017-05-27 21h-23h Rebranchement définitif des serveurs, après mise à jour kernel, memtest86 et test UPS
2017-06-30 1h-10h45 ligne principale cablecom down
2017-07-24 Quelques pannes durant la nuit de la liaison secondaire init7, avec augmentation puis retour quasi à la normale du délai; probablement problème Swisscom
2017-07-31 Mise à jour kernel virtual et redémarrage des services
2017-08-04 Après redémarrage de l'authentification sur init7, CHAP auth failed; ouverture d'un ticket et appel du support le lundi matin: les informations ont disparues de la DB RADIUS sans explication, regénération, reconfiguration. Résolution du problème un peu lente par init7: pas de réaction au mail à noc@, tél à 11h15 et envoi des données incorrectes à 14h, puis correctes un peu plus tard. Ajout d'un reset de la liaison le lundi pour voir (aussi délai reconfiguration)
2017-10-08 Remplacement du StartSSL wildcard par une autre entreprise, 1 an avant son échéance car Chrome a décidé d'invalider des domaines supplémentaires -- pas Firefox; dans un an on réfléchira à LetsEncrypt, car ils devraient supporter les wildcard d'ici là. Aussi profité de désactiver l'algo 3DES qui est faible.
2017-11-24 - 2017-12-10 ventilateur disque 1 en panne, température jusqu'à 42 degrés, à changer; profiter de faire màj kernel voir aussi RT#741 -- fait; surveiller /dev/sda car plus vieux et surtout a chauffé
2018-01-12 màj kernel pour meltdown
2018-02-15 Disque USB de sauvegarde déconnecté; peut-être bug kernel; e2fsck et comparaison en cours; /backup dans les VM ne marche plus; rebranché, vérifié; tout ok. Reste que /backup ne sera pas disponible partout avant redémarrage de chaque VM.
2018-04-23 quelques soucis avec postgrey et quelques domaines gérés par Microsoft (load-balancing); work-around; passage à postgrey 1.37 (upstream) via le package backporté localement
2018-05-01 mise à jour shakotay à jessie
2018-08-14 rack disque-dur à changer; done 2018-08-15 19:50
2018-08-22 crash UPS à cause surcharge due à travaux
2018-10-06 9:30 - 2018-10-08 11:00 init7 link down, à nouveau config changée
2018-07-06 - 2018-11-17 infrastructure déplacée pour travaux: remise en place; test I/O et CPU/RAM et regén clé boot, aussi nouveau microcode installé (voir #743), mise à jour kernel en hold, test fw y.c. v6; testé que le qrunner de mailman est lancé après reboot.
2019-03-05 changement temporaire UPS (batterie probablement défectueuse depuis 2019-03-01), redémarrage de tous les services
2019-03-22 changement batteries ancienne UPS et tests
2019-03-23 remise ancienne UPS à la place, redémarrage de tous les services; test rapide sans alim
2019-04-14 kernel mis à jour, retester UPS détection offline, testé clé USB, compare rsync running
2019-05-16 désactivation hyperthreading par arrêt de core virtuels dans rc.local sur virtual en raison vulnérabilités MDS
2019-06-09 installé nouveau package microcode, nouveau kernel & clé USB; reboot ok
2019-06-22 nouveau microcode et nouveau kernel (surtout patch SACK TCP), clé USB; recâblages; reboot ok
2019-07-27 nouveau kernel, reboot
2019-09-27 nouveau kernel, reboot
2020-02-28 https://www.alphanet.ch/ plante avec erreur RSA (avec openssl et w3m, et fait erreur de trust avec Mozilla), mais les autres serveurs virtuels (wiki, stats) fonctionnent. Redémarré apache2, semble corriger le problème. Curieux. S'est encore reproduit sous jessie. Voir si se reproduit avec buster (pas encore observé)
2020-08-03 8h-8h45 panne téléreseau

 
info@alphanet.ch - Copyright © 1997-2009 - ALPHANET / Marc SCHAEFER