Sr. 数据工程师简历TX -雇用IT人员-我们完成IT工作-356平台

SUMMARY

8年以上的IT专业经验, 专注于大数据生态系统, Hadoop架构, 和数据仓库.
数据架构专业知识, 包括数据摄取知识, pipeline design, Hadoop信息架构, data modeling, data mining, 复杂数据处理, ETL工作流程优化.
熟练掌握Scala, Apache HBase, Hive, Pig, Mahout, Oozie, Flume, Sqoop, Zookeeper, Spark, Spark SQL, Spark Streaming, Kinesis, Airflow, Yarn, and Hadoop (HDFS, MapReduce).
丰富的Spark应用程序设计经验，利用RDD进行高可扩展性的数据转换, Data Frame, 和Spark - SQL API.
广泛使用nosql数据库及其集成, 包括Dynamo DB, Cosmo DB, Mongo DB, Cassandra, and HBase.
熟练使用Cloudera, Hortonworks, Amazon EMR, Redshift, EC2, Azure HDInsight用于创建项目, implementation, deployment, 并使用Java/J2EE进行维护, Hadoop, and Spark.
AWS云(EMR)的实践经验, EC2, RDS, EBS, S3, Lambda, Glue, Elasticsearch, Kinesis, SQS, DynamoDB, Redshift, ECS).
熟练使用MapReduce, Apache Crunch, Hive, Pig和Splunk处理Hadoop任务.
精通开发操作多种文件类型的复杂MapReduce系统, including Text, Sequence, XML, and JSON.
熟练创建用于交互分析的Spark-Scala和PySpark应用程序, batch processing, 流处理, 以及熟悉Spark的架构和部件.
使用Spark Data Frame Operations完成关键数据验证，并在Cloudera基础架构上广泛使用Spark Data Frame API对Hive数据进行分析.
Scripting Python with proficiency; experience with NumPy for statistics, Matplotlib用于可视化, 以及用于数据管理的Pandas.
使用SparkSQL和Data Frames API将结构化和半结构化数据加载到Spark集群(API).
在构建shell脚本和处理UNIX/LINUX系统方面有很强的背景.
丰富的专业知识排除Spark应用程序问题，通过微调Spark应用程序和hive查询来优化系统性能.
开发了从Hive表中提取所需数据的高级HiveQL搜索, 根据需要构建Hive用户定义函数(udf).
对Hive分区和桶的概念有很好的理解, 以及管理表和外部表的设计，以提高效率.
在创建几个融合的kineesis生产者和消费者方面的专业知识，以满足业务需求. 将流数据放到HDFS中，使用Spark进行处理.
使用TDCH Teradata连接将数据从多个数据源加载到分区的Hive表中, such as Teradata, into HDFS.
有根据客户需求使用SQOOP将数据从HDFS传输到关系型数据库系统的经验.
高效使用Git、SVN、Bamboo、Bitbucket等版本控制系统.
熟悉使用Informatica Power Center进行数据仓库的ETL技术, OLAP, and OLTP.
具有开发复杂Oracle查询和使用PL/SQL构建存储过程的数据库架构的丰富经验, Functions, and Triggers.

TECHNICAL SKILLS

AWS Services: S3、EC2、EMR、Redshift、RDS、Lambda、Kinesis、SNS、SQS、AMI、IAM、云形成

Hadoop组件/大数据: HDFS, Hue, MapReduce, PIG, Hive, HCatalog, Hbase, Sqoop, Impala, Zookeeper, Flume, Kafka, Yarn, Cloudera Manager, Kerberos, pyspark Kafka, Snowflake

整体云服务: Azure数据工厂(ADF), Azure数据库(ADLS), AWS(亚马逊网络服务), 弹性地图缩减(EMR),S3(简单存储服务), λ(serverless), 弹性货柜服务, SNS(简易通知服务), 简单队列服务(SQS)

Spark组件: Apache Spark，数据框架，Spark SQL, Spark, YARN, Pair rdd

Databases: Oracle, Microsoft SQL Server, MySQL, DB2, Teradata

编程语言: Java, Scala, Impala, Python.

NoSQL Databases: NoSQL数据库(Hbase, Cassandra, Mongo DB)

Methodologies: 敏捷(Scrum)、瀑布、UML、设计模式、SDLC.

Cloud Services: AWS, Azure

ETL Tools: 人才开放工作室 & 人才企业平台

报告和ETL工具: Tableau, Power BI, AWS GLUE, SSIS, SSRS, Informatica, Data Stage

专业经验

Sr. Data Engineer

Confidential, TX

Responsibilities:

使用开发的Spark程序处理原始数据, 填充staging表, 并存储精细数据(JSON), XML, CSV. Etc.)在企业数据仓库的分区表中.
开发流应用程序，接受来自Amazon AWS Kinesis队列的消息，并使用Spark和Kinesis将数据发布到AWS S3桶.
使用AWS EFS通过AWS EC2提供可扩展的文件存储.
构建数据管道，使用Spark-Scala将数据从On-Prem移动到云.
使用T-SQL将数据仓库和数据集市中的数据集成到基于云的数据结构中.
为RDBMS和Hive中的分析应用开发SQL和HQL中的ddl和dml脚本.
编写Shell脚本用于参数化Oozie工作流中的Hive活动和调度任务.
Kinesis用于向HDFS和Cassandra填充大量数据.
使用Amazon EKS在云端或本地运行、扩展和部署应用程序.ki
开发PySpark代码来模拟在本地环境中执行的转换，分析SQL脚本并设计使用PySpark实现的解决方案.
广泛使用Sqoop从HDFS导入和导出数据到关系数据库系统/大型机, 以及将数据加载到HDFS.
开发和维护数据仓库对象. 优化了Pyspark任务在Kubernetes集群上运行，通过使用Jenkins框架部署它们并集成git版本控制来加快数据处理.
SSIS设计器用于创建SSIS包，用于从OLE DB源和Excel电子表格导出异构数据到SQL Server.
使用Databricks, Spark SQL和Scala将数据迁移到RV数据管道.
监视YARN的应用程序，排除故障，并解决特定于集群的系统问题.
作为NiFi大数据管道初始原型设计团队的关键成员. 该管道展示了数据输入和处理的端到端场景.
使用NiFi工具确定是否将消息传递到目标系统. NiFi独一无二的CPU诞生了.
配合HBase等NoSQL数据库，并集成Spark进行实时数据处理.
围绕错误处理和记录Ansible/Jenkins作业结果定制逻辑.
Oozie Scheduler技术用于自动化管道过程，并协调提取数据的map-reduce操作, 而Zookeeper用于提供集群协调服务.
创建Hive查询，通过将新数据与EDW(企业数据仓库)参考表和以前的度量进行比较，帮助数据分析师识别开发模式.
参与规范设计、设计文档、数据建模和数据仓库设计. 我们评估了现有的和EDW(企业数据仓库)技术和流程，以确保我们的EDW/BI设计符合公司和组织的需求，同时也允许未来的扩展.
在Scala中使用数据框架API，用于将组织成命名列的分布式数据集合转换, 使用Apache Spark Scala API开发预测分析.
从事Hadoop, SOLR, Spark和基于kinesis的大数据集成和分析.
建立大数据任务是为了将大量数据加载到S3数据湖中，并最终加载到AWS RedShift中, 并且创建了一个管道来允许连续的数据加载.
利用Hive Joins优化了长时间运行的Hive搜索, vectorizations, Partitioning, Bucketing, and Indexing.
Designed, developed, 并在AWS EMR上使用Apache Spark的python API (PySpark)实现ETL管道.
丰富的Apache/Hudi数据集插入/批量插入经验.
使用Scala和Java API开发Spark程序，并在RDD上执行转换和操作.
在Databricks上开发Spark作业来执行数据清理等任务, data validation, 标准化，然后根据用例应用转换.
为了找到Kafka消息失败的场景，我使用了Kibana和Elastic搜索.
参与通过调整内存和资源分配设置来调优Spark应用程序, 确定最佳批处理间隔时间, 并调整遗嘱执行人的数量，以适应不断增长的需求. EMR集群上部署了Spark和Hadoop任务.
根据业务变化，参与安排每周一次和每月在Tableau Server上的数据刷新，以确保视图和仪表板准确显示更新的数据.

Technologies: Hadoop, HDFS, Java 8, Hive, Sqoop, HBase, Oozie, Storm, YARN, NiFi, Cassandra, Zookeeper, Spark, Kinesis, MySQL, Shell Script, AWS, EC2, Source Control, GIT, Tera数据SQL助手.

Sr. Data Engineer

机密，新泽西

Responsibilities:

安装并配置Apache BigData Hadoop组件，如HDFS, MapReduce, YARN, Hive, HBase, Sqoop, Pig, Ambari, and Nifi.
Zookeeper被用来管理同步, serialization, 以及从JMS Solace迁移到Kinesis后整个集群的协调.
设计和开发Azure数据工厂(ADF)，以从各种源系统摄取数据, 包括关系型和非关系型, 满足业务功能需求.
使用Azure数据工厂的集合, T-SQL, Spark SQL, 和U-SQL Azure数据湖分析来提取, transform, 并将数据从源系统加载到Azure数据存储服务.
将数据摄取到一个或多个Azure服务(Azure数据湖), Azure Storage, Azure SQL, Azure DW)和Azure Databricks中的处理.
使用Databricks和ADF, create pipelines, data flows, 以及复杂的数据转换和操作.
创建了多个Databricks集群, provisioned, 并部署了用于批处理和连续流数据处理的基本库.
使用Azure集群服务, Azure数据工厂V2将来自不同源系统的大量数据吸收到Azure数据湖Gen2中.
EC2设计和维护了多个应用程序，用于从S3摄取和传输数据到EMR和Redshift.
使用AWS Kinesis Data Stream和Firehose将来自众多来源的数据摄取到S3中.
使用Elastic Map Reduce (EMR) to AWS Redshift来处理存储在AWS中的许多tb的数据.
使用Azure数据工厂V2, 执行从S3到Azure data Lake Gen2和SQL Server的全部数据加载.
参与数据库迁移方法和集成转换解决方案，将遗留ETL流程转换为Azure Synapse兼容架构.
实现Apache Spark数据处理项目，处理来自多个RDBMS和Streaming源的数据，并使用Scala和Java开发Spark应用程序.
创建了一个Spark Scala笔记本，用于清理和操作多个表之间的数据.
使用FTP Adaptor、Spark、Hive和Impala构建完整的数据管道.
使用Scala实现Spark，并大量使用Spark SQL来实现更快的数据生成和处理.
有在Azure Databricks中使用Spark SQL开发ETL解决方案的经验，用于数据提取, 从多个文件格式和数据源进行转换和聚合.
为数据建模创建脚本, 为pm和em提供更好的访问Azure日志的挖掘.
在Azure-databricks上执行Pyspark ETL管道的端到端交付，以执行通过Azure自动化帐户调度的Azure数据工厂(ADF)编排的数据转换，并使用Tidal Scheduler触发它们.
响应SQL对象的客户端请求, schedules, 业务逻辑更新, 以及特别的查询, 以及分析和解决数据同步问题.
在Power BI和Tableau中为商业智能创建自定义报告.
与Sqoop合作，从各种数据源导入额外的公司数据到HDFS, 使用Hive进行转换, Map Reduce, 最后将数据加载到HBase表中.
改进了几个速度, 包括利用小型数据集的分布式缓存, partitioning, Hive中桶, 和地图侧连接.
创建链接服务以将数据从SFTP移动到Azure数据湖.
Using Pyspark, 我创建了许多Databricks Spark任务来执行几个表对表的事务.

Technologies: Azure数据工厂(ADF v2), Azure Databricks (PySpark), Azure Data Lake, 火花(Python / Scala), Hive, Apache Nifi 1.8.0, Jenkins, Kinesis, Spark Streaming, Docker Containers, PostgreSQL, RabbitMQ, Celery, Flask, ELK Stack, AWS, MS-Azure, Azure SQL数据库, Azure功能和应用, Azure Data Lake, Azure Synapse, BLOB Storage, SQL Server, Windows远程桌面, UNIX Shell脚本, AZURE PowerShell, ADLS Gen 2, Azure Cosmos DB, Azure Event Hub, Sqoop, Flume

AZURE /雪花工程师

Confidential, NJ

Responsibilities:

Analyze, design, 并开发使用Azure PaaS服务实现数据可视化的现代数据解决方案.
使用Azure数据工厂的组合, T-SQL, Spark SQL, U-SQL Azure数据存储服务, extract, transform, 并将数据从源系统加载到Azure数据湖分析.
迁移SQL数据库到Azure数据湖的经验, Azure数据湖分析, Azure SQL数据库, 数据砖和Azure SQL数据仓库，控制和授予数据库访问权限，并使用Azure数据工厂将本地数据库迁移到Azure数据湖存储.
创建了Databricks Delta Lake进程，用于从各种来源(数据库)实时加载数据, Adobe, 和SAP)使用Python/PySpark代码到AWS S3数据湖.
将数据摄取到一个或多个Azure服务(Azure数据湖), Azure Storage, Azure SQL, Azure DW)和Azure Databricks中的处理
在ADF中使用链接服务/数据集/管道/提取创建管道, transform, 并从各种来源加载数据, 包括Azure SQL, Blob storage, Azure SQL数据仓库, write-back tool, and backwards.
具有Hive查询分析海量结构化数据集的经验, unstructured, 半结构化数据.
在GCP上运行的Hadoop集群中使用spark和Scala代码开发和部署结果.
使用先进的Hive技术，如bucket, partitioning, 并优化自连接以提高结构化数据的性能.
设计了CI/CD框架, tested, 并使用Kubernetes和Docker作为运行时环境进行部署.
负责估计集群大小, monitoring, 以及Spark Data Bricks集群的故障排除.
拥有几个客户业务分析问题的端到端转换, 将它们分解为适当的硬件(IaaS/PaaS/Hybrid)和软件(MapReduce)范例, 然后应用机器学习算法从数据湖中提取有用的信息.
在云和On- prem硬件上, 通过中央Hadoop处理平台和相关技术(包括ETL工具和NoSQL数据库)，调整和设计可扩展的大数据场景，以支持端到端业务用例.
使用爱迪生Arduino防护罩开发了几个技术演示, Azure EventHub, 和流分析, 并将它们与PowerBI和Azure ML集成在一起，以展示Azure流分析的功能.

Technologies: Azure Data Factory(V2)， Azure Databricks, Python 2.0、SSIS、Azure SQL、Azure数据湖、Azure Blob Storage、Spark 2.0, Hive.

大数据工程师

保密，沃特伯里CT

Responsibilities:

对JSON执行Spark SQL操作, 将数据转换为带有数据帧的表格结构, 并将数据存储和写入Hive和HDFS.
优化了Informatica映射和会话的性能，以便在消除瓶颈后改进流程并提高其效率.
处理复杂的SQL查询，PL/SQL过程并将其转换为ETL任务
创建基于风险的机器学习模型(逻辑回归、随机森林、支持向量机等.)，根据历史业绩数据预测哪些客户更有可能违约，并对他们进行排序.
使用不确定性矩阵(精度)评估模型输出, 召回以及Teradata资源和实用程序(BTEQ), Fast load, Multi Load, Fast Export, and TPUMP). .
使用Spark 2实时摄取和处理Comcast设置框点击流事件.x, Spark Streaming, Databricks, Apache Storm, Kafka, Apache-Memory Igniter的网格(分布式缓存)
使用各种DML和DDL命令进行数据检索和操作, such as Select, Insert, Update, Sub Queries, Inner Joins, Outer Joins, Union, Advanced SQL, and so on.
使用Informatica Power Center.6.1, I extracted, transformed, 并从各种来源(如Oracle和平面文件)加载数据到Netezza数据仓库.
参与从IDQ到权力中心的地图转移.
数据从各种来源摄取，包括Kafka、Flume和TCP套接字.
数据处理采用高级算法，通过高级函数(如map)表达, reduce, join, and window.

Technologies: Scala 2.12.8, Python 3.7.2、PySpark.4、Spark ML Lib, Spark SQL, TensorFlow.9, NumPy 1.15.2, Keras 2.2.4、PowerBI、Spark SQL、Spark Streaming、HIVE、Kafka、ORC、Avro、Parquet、HBase、HDFS.

大数据开发人员

Confidential

Responsibilities:

Develop, improve, 规模过程, structures, workflows, 以及数据管理和分析的最佳实践.
具有大数据采集、存储、处理、分析工作经验.
与产品负责人合作，开发产品变化效果的实验设计和测量方法.
具有Pig和Hive等数据收集方法的实践经验, 数据吸收, Oozie用于调度, 和Zookeeper用于集群资源协调.
在Apache Spark Scala代码库工作, 在rdd上执行操作和转换, Data Frames, 使用SparkSQL和Spark流上下文的数据集.
使用Sqoop将数据从HDFS传输到关系数据库系统，反之亦然. 维护和故障排除
采用Spring/MVC框架实现JSP/视图层之间的交互，采用J2EE和XML技术实现不同的设计模式.
研究使用Spark后台和基于Spark的算法来提高现有Hadoop算法的效率和优化.
使用Pig等各种大数据分析工具分析Hadoop集群, HBase database, and Sqoop.
使用Impala和Sqoop进行NoSQL企业开发和数据加载到HBase.
在Pig和Hive上执行多个MapReduce任务，进行数据清理和预处理.
在YARN中使用MR1和MR2为大数据问题构建Hadoop解决方案.
评估Hadoop及其生态系统对上述项目的适用性，并通过各种概念验证(POC)应用程序实施/验证，最终采用它们以从大数据Hadoop计划中受益.
与恶意软件研究/数据科学团队密切合作，加强恶意站点检测, 以及基于机器学习/数据挖掘的大数据系统
参与整个开发生命周期, 包括需求审查, design, development, implementation, 以及运营支持.

Technologies: Hadoop 3.0, Hive 2.1、J2EE、JDBC、Pig 0.16, HBase 1.1、Sqoop、NoSQL、Impala、Java、Spring、MVC、XML、Spark.9, PL/SQL, HDFS, JSON, Hibernate, Bootstrap, JQuery, JDBC, JSP, JavaScript, AJAX, Oracle 10g/11g, MySQL, SQL server, Teradata, Hbase, Cassandra

我们提供资讯科技人员扩充服务!

Sr. 数据工程师简历

TX

我们希望得到您的反馈!

简历分类

Client Services

Job Seekers

Visa Sponsorship