Informatica представила новый релиз системы Intelligent Data Lake для монетизации данных
27 июль 2017 17:05 #59596
от ICT
ICT создал тему: Informatica представила новый релиз системы Intelligent Data Lake для монетизации данных
Informatica представила новый релиз системы Intelligent Data Lake, нацеленной на комплексный подход к монетизации данных и работу с ними в формате Self-Service. В начале 2017 года Informatica выпустила обновленную версию платформы Intelligent Data Lake (IDL), предлагающей рынку новую концепцию управления корпоративными данными в условиях современных трендов и вызовов. Платформа помогает повысить доступность данных для широкого круга пользователей и решает вопрос эффективного поиска, быстрого прототипирования и самостоятельного получения пользователем первых результатов без необходимости обращения в ИТ. Такие возможности становятся все более и более востребованы с учетом развивающегося тренда data driven company, когда многие компании ставят именно данные во главу угла, и все больше специалистов должны быть обеспечены необходимой информацией, чтобы принимать на ее основе прозрачные решения и извлекать для компании выгоды. Informatica предлагает бизнесу и ИТ промышленную платформу, позволяющую решить весь комплекс задач, так или иначе связанных с управлением данными на всем их жизненном цикле, что, в конечном итоге, помогает компании более эффективно работать с данными и перевести их в разряд ключевого актива организации. Решение IDL является еще одним звеном, расширяющим возможности данной платформы в области работы с Big Data. С наступлением эры больших данных (Big Data) многие организации всерьез задумались о применении нового подхода к сбору, хранению и анализу своих данных. Если раньше данные анализировались выборочно, под набор конкретных и понятных задач, то сегодня все чаще и чаще компании стремятся сохранить все исходные данные и присовокупить к ним самые различные внешние источники, чтобы иметь возможность всестороннего анализа. Когда сегодня мы принимаем решение, какую информацию сохранять, а какую – нет, мы можем даже не знать, как будем использовать ее в будущем. Но спустя время возникает идея или гипотеза, которая опирается на сохраненные данные и способна не просто окупить все затраты на их хранение, но вывести компанию на новые горизонты развития. Появляется возможность получить принципиальные конкурентные преимущества, вывести на рынок новый успешный продукт, завоевать сердца тысяч новых клиентов, предложить уникальный сервис и т.д. Только одна идея из многих сработает, но она может до неузнаваемости изменить бизнес, и многие компании не хотят сегодня упускать подобные возможности. Согласно концепции Data Lake сохраняется как можно больше данных в едином месте, включая данные из всех транзакционных систем, все накопленные знания из корпоративных хранилищ и систем аналитики, исходные журналы и машинные данные, информацию от партнеров, данные социальных сетей и т.д. Решение Data Lake должно обеспечивать возможность совместного хранения и обработки разнотипных данных, а также хорошо масштабироваться. Как правило, такие решения разворачиваются на базе кластера Hadoop, который позволяет относительно дешево хранить и анализировать огромные объемы структурированных и неструктурированных данных из самых различных внутренних и внешних источников. Однако, сохранить и собрать информацию в одном месте недостаточно. Возникает вопрос эффективного обеспечения данными существенно более широкого круга пользователей, чем ранее. Если в компании работает несколько тысяч человек, а анализом данных занимается 10-15 аналитиков, то, очевидно, что компания не использует свой потенциал и вряд ли сможет перестроиться и развить успешный бизнес вокруг данных. Второй момент, который здесь возникает, - это трудность поиска той информации, которая нужна конкретному аналитику для ответа на конкретный вопрос с учетом сотен и тысяч источников и потоков данных, большого многообразия структур, различий в трактовке данных, различных проблем с их качеством и, часто, отсутствия или неточности документации. И наконец, нужно реализовать логику обработки этих данных, а не каждый аналитик обладает знанием java и технологий Hadoop. Из-за этих вопросов пользователь, как правило, вынужден большую часть своего времени тратить не на анализ, а на поиск, перегрузку и различные подготовительные работы с данными. Именно эти моменты и помогает решить Informatica IDL, обеспечивая широкому кругу пользователей эффективный поиск и быстрый доступ к данным, а также возможность самостоятельно построить прототип и проверить свою гипотезу. Любой аналитик или бизнес-пользователь получает возможность провести поиск и исследование всех данных, которые доступны и могут быть использованы для решения той или иной задачи. Система сканирует метаданные всех подключенных источников, в автоматическом режиме индексирует их и запоминает результаты. Благодаря этому любой пользователь быстро и легко с помощью поисковой строки может найти нужные ему данные, где бы они ни находились. Важно отметить, что поиск может производиться как по внутренним корпоративным данным, так и по данным, загруженным из внешних источников. Результаты могут быть ограничены и уточнены с помощью многочисленных фильтров, прикрепленных тегов и другой сопроводительной информации. После того, как пользователь нашел первые наборы данных, которые, на первый взгляд, могут помочь решить его задачу, ему необходимо получить более детальную информацию и убедиться в том, что эти данные действительно пригодны для данного анализа. На этом этапе IDL предоставляет возможность изучить дополнительные аспекты: как найденные данные связаны с другими наборами данных, из каких источников они приходят, куда попадают в конечном итоге, кто и какой анализ уже строит по этим данным. Система помогает нам, показывая связи найденного набора данных, диаграмму происхождения и влияния, пользовательские оценки, результаты профилирования (оценки качества данных), автоматически выявленные домены данных и многое другое. Двигаясь по диаграмме связей, например, мы можем понять, что нужные нам данные уже загружены в кластер, и нам нет необходимости заново доставать их из источника и терять на этом время - они уже доступны для анализа. Мы можем увидеть, какие еще наборы данных могут быть полезны. Таким образом, система помогает не просто найти необходимые данные, но и быстро в них сориентироваться, отсечь ненужное, добавить дополнительные источники и сформировать итоговый пул данных для анализа. Чтобы пользователь мог поработать с самими данными, они все уже должны находиться в рабочей области Data Lake. Здесь пользователь в зависимости от объемов, его прав и экспертизы может либо самостоятельно инициировать перегрузку данных, используя встроенный инструментарий системы, либо сделать запрос в IT. Далее все найденные наборы данных объединяются в проект, при этом пользователь может пригласить своих коллег присоединиться к работе либо как полноправных участников, либо просто для просмотра. На этом этапе система, анализируя опыт других пользователей, предлагает рекомендации и подсказки, какие наборы данных могли быть забыты и будут также полезны. Вы легко, одним кликом можете добавить их в проект. Все загруженные в проект данные становятся доступны пользователю для анализа и построения прототипа. Информация отображается в удобном специализированном интерфейсе, где пользователь может объединить данные, скомбинировать их между собой, без каких-либо навыков программирования применить различные правила преобразования, выявить и устранить проблемы с качеством данных, постепенно шаг за шагом приближаясь целевому состоянию. В этот момент система всячески помогает пользователю, показывая статистические данные, анализируя возможные варианты и выдавая пользователю наиболее удачные рекомендации. Например, при работе с комплексной строкой - адрес или назначение платежа – система проанализирует ее состав и предложит автоматически разбить на несколько полей. Таким образом, пользователь может самостоятельно провести первичный анализ и проверить основные гипотезы. Получив все необходимые данные и приведя их к необходимому виду, пользователь может сохранить результаты своей работы в виде витрины Hive – его коллеги или он сам смогут продолжить анализ с помощью какого-либо BI-инструмента или статистического пакета для построения моделей. Если полученный набор данных нужен не разово, а на постоянной основе, то пользователь может просто опубликовать его в виде автоматически генерируемого интеграционного процесса Informatica. Система самостоятельно воспроизведет все действия пользователя и построит повторяемый процесс, который может быть передан в IT для постановки на поддержку, регулярную загрузку и развитие. В таком виде процесс передачи задачи от пользователя к IT будет произведен гораздо быстрее и продуктивнее, так как всю логику пользователя система переведет на язык IT автоматически. Intelligent Data Lake обеспечивает быстрый поиск нужных данных, где бы они не находились (концепция «магазина» данных), прозрачное понимание, что это за данные и подходят ли они для решаемой задачи, быстрое построение прототипа для дальнейшего анализа. Благодаря этому IDL позволяет бизнесу гораздо более быстро и эффективно работать с данными и извлекать из них больше ценности для компании, предоставляя информацию широкому кругу пользователей. Бизнес-пользователи, аналитики, эксперты Data Science получают возможности быстрого и непрерывного тестирования своих гипотез для обеспечения роста бизнеса с минимумом затрат. Благодаря использованию Informatica IDL все эти пользователи не теряют свое время на поиске и каких-то подготовительных работах. Your browser does not support the video tag.
CNews Forum 2017: Информационные технологии завтра
Ссылка на источник
Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.
Похожие статьи
Тема | Релевантность | Дата |
---|---|---|
DIS Group представила в России Informatica Intelligent Data Platform 10.2 | 26.69 | Пятница, 22 сентября 2017 |
Microsoft представила новую версию Azure Data Lake для хранения, обработки и анализа больших данных | 21.1 | Вторник, 29 сентября 2015 |
EMC Data Lake 2.0 — средство перехода к аналитике больших данных и цифровой экономике | 18.44 | Четверг, 03 декабря 2015 |
«Вымпелком» внедрил систему маскирования данных Informatica Dynamic Data Masking | 17.88 | Четверг, 14 июня 2018 |
Informatica представила Informatica Secure@Source версии 4 | 15.79 | Понедельник, 27 ноября 2017 |
Вышел новый релиз системы Avanpost IDM | 15.45 | Среда, 29 июня 2016 |
Вышел новый релиз системы документооборота «Тезис» | 15.29 | Четверг, 01 октября 2015 |
EMC выпустила новые решения Isilon NAS Data Lake | 15.07 | Среда, 18 ноября 2015 |
КРОК запускает платформу Data Lake в формате управляемого сервиса | 14.75 | Четверг, 19 октября 2017 |
Hawk House Integration представила новый релиз Amber CRM | 14.34 | Понедельник, 19 декабря 2016 |