Data sciences : focus on machine learning and deep learning
[mk_page_section bg_image=”/wp-content/uploads/sites/5/2017/06/digital-specialisations.jpg” bg_position=”center top” video_loop=”false” video_opacity=”0″ min_height=”0″ full_width=”true” js_vertical_centered=”true” top_shape_color=”#ffffff” bottom_shape_color=”#ffffff” sidebar=”sidebar-1″][vc_column][mk_padding_divider size=”50″ visibility=”hidden-tl”][mk_padding_divider size=”50″ visibility=”hidden-sm”][vc_row_inner is_fullwidth_content=”false”][vc_column_inner][mk_fancy_title tag_name=”h1″ color=”#ffffff” size=”50″ force_font_size=”true” size_smallscreen=”50″ size_tablet=”50″ size_phone=”25″ font_weight=”bold” txt_transform=”uppercase” margin_bottom=”0″ font_family=”Raleway” font_type=”google”]Data sciences : focus on machine learning and deep learning[/mk_fancy_title][/vc_column_inner][/vc_row_inner][mk_padding_divider size=”50″ visibility=”hidden-tl”][mk_padding_divider size=”50″ visibility=”hidden-sm”][/vc_column][/mk_page_section][mk_page_section sidebar=”wptimeline-sidebar”][vc_column][vc_row_inner is_fullwidth_content=”false”][vc_column_inner][vc_empty_space height=”20px”][vc_column_text]“In very simple terms, Machine Learning is a collection of techniques that capitalizes on pattern detection to transform your data into actionable insights.
There are four main techniques of Machine Learning namely supervised, unsupervised, semi-supervised and reinforcement Learning. Two techniques of Machine learning are presented above to prove the emergence of Deep Learning as a robust method.
In supervised Machine Learning, a classification or a regression model is trained on a training set called “gold standard training set” which is then used to predict or make a prediction on non-training data. Good models are able to maximize the limited available training samples and generalize the predictions on unseen data sets. Some of the better models are able to adapt to the subtle evolution of the underlying data patterns over time and can learn the underlying data distribution from one problem and adapt it to another different but related problem.
At Soladis, supervised Machine Learning is used to solve a number of tasks for our clients. Some of them may include missing data imputation and also making models for the detection of diseases and anomalies. We provide our client some consulting on those topics or perform the analysis on their request.
In contrast with unsupervised Machine Learning the goal is to find hidden properties in data sets without explicitly being given gold standard training data set. One of the main technique used at Soladis for unsupervised learning is called clustering similar data is grouped together according to their hidden characteristics. Solutions offered by Soladis frequently take advantage of such methods.
Deep learning is a specialized branch of Machine Learning where any of the four domains mentioned above can used. Very briefly it consists of an Artificial Neural Network comprising of thousands, if not millions, of layers and each layer consisting of thousands of neurons where each neuron represents an electronic weight. As information passes from the input through the layers, the data is transformed into abstract feature representation and the data only relevant features are transmitted from one layer to the next until finally the prediction of the problem is the output.
If you think that data is becoming more and more available nowadays and also the fact that the cost of computation is decreasing, then you realize that deep learning is actually becoming more and more efficient in predicting trends in your data set. At Soladis, we have understood the power of Deep Learning and we are using such techniques to serve our clients interests with a full range of expertise.”
Data sciences : focus sur le Big Data et un cas pratique en Astrophysique
[mk_page_section bg_image=”/wp-content/uploads/sites/5/2017/06/digital-specialisations.jpg” bg_position=”center top” video_loop=”false” video_opacity=”0″ min_height=”0″ full_width=”true” js_vertical_centered=”true” top_shape_color=”#ffffff” bottom_shape_color=”#ffffff” sidebar=”sidebar-1″][vc_column][mk_padding_divider size=”50″ visibility=”hidden-tl”][mk_padding_divider size=”50″ visibility=”hidden-sm”][vc_row_inner is_fullwidth_content=”false”][vc_column_inner][mk_fancy_title tag_name=”h1″ color=”#ffffff” size=”50″ force_font_size=”true” size_smallscreen=”50″ size_tablet=”50″ size_phone=”25″ font_weight=”bold” txt_transform=”uppercase” margin_bottom=”0″ font_family=”Raleway” font_type=”google”]Data sciences : focus sur le Big Data et un cas pratique en astrophysique[/mk_fancy_title][/vc_column_inner][/vc_row_inner][mk_padding_divider size=”50″ visibility=”hidden-tl”][mk_padding_divider size=”50″ visibility=”hidden-sm”][/vc_column][/mk_page_section][mk_page_section sidebar=”wptimeline-sidebar”][vc_column][vc_row_inner is_fullwidth_content=”false”][vc_column_inner][vc_empty_space height=”20px”][vc_column_text]« L’astronomie représente un exemple bien concret du problème de Big Data. En effet les Astrophysiciens, de par les sujets qu’ils étudient, sont des gros producteurs de données.
Avant tout, il faut savoir qu’en Astrophysique, les chercheurs observent à la fois l’infiniment petit et l’infiniment grand, mais également l’infiniment proche et jusqu’à l’infiniment lointain dans le temps puisque l’on cherche, dans cette discipline, à remonter jusqu’à l’origine de l’univers.
A titre d’exemple, actuellement, le grand télescope d’étude synoptique – ou le LLST en anglais – est en construction au Chili, il sera bientôt mis en service en 2020. Avec cet outil, les scientifiques se trouveront face à une énorme avancée technologique qui a forcément une contrepartie : la génération de beaucoup plus de données qu’au préalable.
Il faut savoir que cet outil accumule de l’ordre de 15 Téra octets de données brutes pour une nuit, ce qui correspondra au bout de 10 ans à une dizaine de Péta octets. Dans ce cas précis, il faut bien constater que l’on se trouve face à un problème de Big Data.
Pour exploiter ce type d’équipement, dans un premier temps, il va falloir que l’on soit en mesure d’héberger toutes ces données ce qui nécessite de créer une base de données et de la maintenir, une problématique de Data architecture.
Dans un deuxième temps il faudra référencer et indexer ces données (une part de Data Management).
Enfin, il va être possible de procéder à l’étude et à l’analyse de ces données et c’est là que les méthodes classiques de traitement de l’information interviennent. Il ne va plus être possible de regarder uniquement des données en faisant des graphiques et des analyses statistiques multidimensionnelles en étudiant une variable en fonction d’une autre variable. Dans un cas tel que celui-ci, il va falloir utiliser des nouvelles techniques beaucoup plus puissantes et performantes comme le datamining : la fouille de données, et également le machine learning, le deep learning, etc… Ces techniques sont vraiment bien représentées et bien maîtrisées chez Soladis.
Ce cas n’est qu’un exemple, mais il montre bien que nous sommes entrés dans une « nouvelle ère » où les scientifiques porteurs de projets et les data scientists, qui apportent de l’expertise et du conseil data-orientés, vont devoir travailler de pair pour pouvoir réussir à gérer ces énormes flux de données et réussir à faire de nouvelles découvertes scientifiques. »