Date: Mon, 15 Dec 2014 23:25:06 +0100
From: Philippe Guillebert <philippe.guillebert@gmail.com>
To: "federez@federez.net" <federez@federez.net>
Subject: [Federez] Stages Linkfluence
 
Bonjour
 
Je me présente, phyce, Supélec Rézo sorti de l'école en 2006. Je m'excuse
d'avance pour le spam mais promis c'est garanti sans chasseur-de-tête !
 
Ma boite, Linkfluence, écoute et analyse le web et les réseaux sociaux pour
le compte de nos clients (des marques grandes ou petites), de façon à mieux
cibler leur marketing/communication et leur community management. En gros
si qqun tweete que son macDo était dégueu, ca les informe immédiatement et
ils peuvent réagir.
Ca s'appelle du Social Media Intelligence.
 
Quelques chiffres : on capture et analyse plus de 50 millions de documents
chaque jour, on a des clusters de plusieurs dizaines de noeuds, un tweet
est mis à dispo de nos client moins de 2s après son envoi.
 
Nous recherchons un stagiaire "avec option d'embauche" pour faire de la Big
Data dans le Cloud.
 
J'ai l'air de faire du bullshit bingo comme ça mais le nombre de boites qui
utilisent réellement ces technos en prod en France se comptent sur une main
(dixit les experts AWS) : clojure, hadoop, hbase, elasticsearch, apache
storm, scala, spark ...
 
Le sujet précis reste à préciser mais si tu kiffes plutôt le dév on peut te
proposer de faire du scala ou du clojure (langages innovants sur la JVM).
Ci après des propositions de sujets "moteur".
 
Si t'es plutôt infrastructures / opérations (c'est ma responsabilité dans
la boite) on a une plutot grosse infra (120 serveurs) en cours de migration
sur le cloud (Amazon). On a clairement l'esprit "devops" (politique et
outillage facilitant le déploiement fréquent).
 
On recherche quelqu'un de dégourdi pour réfléchir et mettre en place de
l'outillage pour des opérations encore plus agiles. Technos : ansible,
packer.io, AWS, Nagios, clojure, perl et tout ce que tu proposeras.
 
Du coup si tu veux voir de l'informatique vraiment distribuée en action
(avec ses avantages et ses problématiques) c'est ce que Linkfluence te
propose.
 
Les sujets que l'on envisage au niveau Infra :
 
*Supervision sans inventaire pour le cloud* : Les instances dans le cloud
peuvent brutalement changer (destruction et création en continu) : comment
concilier cela avec la supervision du bon fonctionnement des systèmes et
des applications ?
 
*Provisioning d'instances en environnement de capacité variable* : AWS nous
permet de redimentionner un cluster de serveurs à la volée (Auto Scaling
Groups). Comment réaliser la reconfiguration des instances (notamment des
applications) pour réagir automatiquement à l'agrandissement/réduction du
cluster ?
 
Les sujets se rapprochant plus du développement :
 
*Analyse du sentiment d'un message textuel* : déterminer par des
algorithmes de http://nlp.stanford.edu/sentiment/ proposer
des approches pour déterminer si un message est plutôt positif ou négatif.
Du coup, cela permet d'identifier détracteurs et sponsors de nos clients.
 
*Web Spam detection*: Proposer une méthode originale basée sur
apprentissage supervisé afin détecter les urls de type "spam" en utilisant
le contenu et les liens entre les pages. On pourra également s'intéresser à
adapter ces techniques pour twitter.
 
*Burst detection* : Proposer des approches pour détecter en temps-réel des
évolutions anormales dans des fux de données. Application; Anticipation des
trending topics, etc.
 
L'ambiance est "start-up" : innovation, canap' et baby-foot. Ca se passe à
Paris 9ème (Notre Dame de Lorette).
 
A votre dispo pour en discuter.
 
--
Philippe