Date: Mon, 15 Dec 2014 23:25:06 +0100 From: Philippe Guillebert To: "federez@federez.net" Subject: [Federez] Stages Linkfluence Bonjour Je me présente, phyce, Supélec Rézo sorti de l'école en 2006. Je m'excuse d'avance pour le spam mais promis c'est garanti sans chasseur-de-tête ! Ma boite, Linkfluence, écoute et analyse le web et les réseaux sociaux pour le compte de nos clients (des marques grandes ou petites), de façon à mieux cibler leur marketing/communication et leur community management. En gros si qqun tweete que son macDo était dégueu, ca les informe immédiatement et ils peuvent réagir. Ca s'appelle du Social Media Intelligence. Quelques chiffres : on capture et analyse plus de 50 millions de documents chaque jour, on a des clusters de plusieurs dizaines de noeuds, un tweet est mis à dispo de nos client moins de 2s après son envoi. Nous recherchons un stagiaire "avec option d'embauche" pour faire de la Big Data dans le Cloud. J'ai l'air de faire du bullshit bingo comme ça mais le nombre de boites qui utilisent réellement ces technos en prod en France se comptent sur une main (dixit les experts AWS) : clojure, hadoop, hbase, elasticsearch, apache storm, scala, spark ... Le sujet précis reste à préciser mais si tu kiffes plutôt le dév on peut te proposer de faire du scala ou du clojure (langages innovants sur la JVM). Ci après des propositions de sujets "moteur". Si t'es plutôt infrastructures / opérations (c'est ma responsabilité dans la boite) on a une plutot grosse infra (120 serveurs) en cours de migration sur le cloud (Amazon). On a clairement l'esprit "devops" (politique et outillage facilitant le déploiement fréquent). On recherche quelqu'un de dégourdi pour réfléchir et mettre en place de l'outillage pour des opérations encore plus agiles. Technos : ansible, packer.io, AWS, Nagios, clojure, perl et tout ce que tu proposeras. Du coup si tu veux voir de l'informatique vraiment distribuée en action (avec ses avantages et ses problématiques) c'est ce que Linkfluence te propose. Les sujets que l'on envisage au niveau Infra : *Supervision sans inventaire pour le cloud* : Les instances dans le cloud peuvent brutalement changer (destruction et création en continu) : comment concilier cela avec la supervision du bon fonctionnement des systèmes et des applications ? *Provisioning d'instances en environnement de capacité variable* : AWS nous permet de redimentionner un cluster de serveurs à la volée (Auto Scaling Groups). Comment réaliser la reconfiguration des instances (notamment des applications) pour réagir automatiquement à l'agrandissement/réduction du cluster ? Les sujets se rapprochant plus du développement : *Analyse du sentiment d'un message textuel* : déterminer par des algorithmes de http://nlp.stanford.edu/sentiment/ proposer des approches pour déterminer si un message est plutôt positif ou négatif. Du coup, cela permet d'identifier détracteurs et sponsors de nos clients. *Web Spam detection*: Proposer une méthode originale basée sur apprentissage supervisé afin détecter les urls de type "spam" en utilisant le contenu et les liens entre les pages. On pourra également s'intéresser à adapter ces techniques pour twitter. *Burst detection* : Proposer des approches pour détecter en temps-réel des évolutions anormales dans des fux de données. Application; Anticipation des trending topics, etc. L'ambiance est "start-up" : innovation, canap' et baby-foot. Ca se passe à Paris 9ème (Notre Dame de Lorette). A votre dispo pour en discuter. -- Philippe