我们提供资讯科技人员扩充服务!

Sr. 数据工程师简历

0/5 (提交你的评分)

TX

SUMMARY

  • 8年以上的IT专业经验, 专注于大数据生态系统, Hadoop架构, 和数据仓库.
  • 数据架构专业知识, 包括数据摄取知识, pipeline design, Hadoop信息架构, data modeling, data mining, 复杂数据处理, ETL工作流程优化.
  • 熟练掌握Scala, Apache HBase, Hive, Pig, Mahout, Oozie, Flume, Sqoop, Zookeeper, Spark, Spark SQL, Spark Streaming, Kinesis, Airflow, Yarn, and Hadoop (HDFS, MapReduce).
  • 丰富的Spark应用程序设计经验,利用RDD进行高可扩展性的数据转换, Data Frame, 和Spark - SQL API.
  • 广泛使用nosql数据库及其集成, 包括Dynamo DB, Cosmo DB, Mongo DB, Cassandra, and HBase.
  • 熟练使用Cloudera, Hortonworks, Amazon EMR, Redshift, EC2, Azure HDInsight用于创建项目, implementation, deployment, 并使用Java/J2EE进行维护, Hadoop, and Spark.
  • AWS云(EMR)的实践经验, EC2, RDS, EBS, S3, Lambda, Glue, Elasticsearch, Kinesis, SQS, DynamoDB, Redshift, ECS).
  • 熟练使用MapReduce, Apache Crunch, Hive, Pig和Splunk处理Hadoop任务.
  • 精通开发操作多种文件类型的复杂MapReduce系统, including Text, Sequence, XML, and JSON.
  • 熟练创建用于交互分析的Spark-Scala和PySpark应用程序, batch processing, 流处理, 以及熟悉Spark的架构和部件.
  • 使用Spark Data Frame Operations完成关键数据验证,并在Cloudera基础架构上广泛使用Spark Data Frame API对Hive数据进行分析.
  • Scripting Python with proficiency; experience with NumPy for statistics, Matplotlib用于可视化, 以及用于数据管理的Pandas.
  • 使用SparkSQL和Data Frames API将结构化和半结构化数据加载到Spark集群(API).
  • 在构建shell脚本和处理UNIX/LINUX系统方面有很强的背景.
  • 丰富的专业知识排除Spark应用程序问题,通过微调Spark应用程序和hive查询来优化系统性能.
  • 开发了从Hive表中提取所需数据的高级HiveQL搜索, 根据需要构建Hive用户定义函数(udf).
  • 对Hive分区和桶的概念有很好的理解, 以及管理表和外部表的设计,以提高效率.
  • 在创建几个融合的kineesis生产者和消费者方面的专业知识,以满足业务需求. 将流数据放到HDFS中,使用Spark进行处理.
  • 使用TDCH Teradata连接将数据从多个数据源加载到分区的Hive表中, such as Teradata, into HDFS.
  • 有根据客户需求使用SQOOP将数据从HDFS传输到关系型数据库系统的经验.
  • 高效使用Git、SVN、Bamboo、Bitbucket等版本控制系统.
  • 熟悉使用Informatica Power Center进行数据仓库的ETL技术, OLAP, and OLTP.
  • 具有开发复杂Oracle查询和使用PL/SQL构建存储过程的数据库架构的丰富经验, Functions, and Triggers.

TECHNICAL SKILLS

AWS Services: S3、EC2、EMR、Redshift、RDS、Lambda、Kinesis、SNS、SQS、AMI、IAM、云形成

Hadoop组件/大数据: HDFS, Hue, MapReduce, PIG, Hive, HCatalog, Hbase, Sqoop, Impala, Zookeeper, Flume, Kafka, Yarn, Cloudera Manager, Kerberos, pyspark Kafka, Snowflake

整体云服务: Azure数据工厂(ADF), Azure数据库(ADLS), AWS(亚马逊网络服务), 弹性地图缩减(EMR),S3(简单存储服务), λ(serverless), 弹性货柜服务, SNS(简易通知服务), 简单队列服务(SQS)

Spark组件: Apache Spark,数据框架,Spark SQL, Spark, YARN, Pair rdd

Databases: Oracle, Microsoft SQL Server, MySQL, DB2, Teradata

编程语言: Java, Scala, Impala, Python.

NoSQL Databases: NoSQL数据库(Hbase, Cassandra, Mongo DB)

Methodologies: 敏捷(Scrum)、瀑布、UML、设计模式、SDLC.

Cloud Services: AWS, Azure

ETL Tools: 人才开放工作室 & 人才企业平台

报告和ETL工具: Tableau, Power BI, AWS GLUE, SSIS, SSRS, Informatica, Data Stage

专业经验

Sr. Data Engineer

Confidential, TX

Responsibilities:

  • 使用开发的Spark程序处理原始数据, 填充staging表, 并存储精细数据(JSON), XML, CSV. Etc.)在企业数据仓库的分区表中.
  • 开发流应用程序,接受来自Amazon AWS Kinesis队列的消息,并使用Spark和Kinesis将数据发布到AWS S3桶.
  • 使用AWS EFS通过AWS EC2提供可扩展的文件存储.
  • 构建数据管道,使用Spark-Scala将数据从On-Prem移动到云.
  • 使用T-SQL将数据仓库和数据集市中的数据集成到基于云的数据结构中.
  • 为RDBMS和Hive中的分析应用开发SQL和HQL中的ddl和dml脚本.
  • 编写Shell脚本用于参数化Oozie工作流中的Hive活动和调度任务.
  • Kinesis用于向HDFS和Cassandra填充大量数据.
  • 使用Amazon EKS在云端或本地运行、扩展和部署应用程序.ki
  • 开发PySpark代码来模拟在本地环境中执行的转换,分析SQL脚本并设计使用PySpark实现的解决方案.
  • 广泛使用Sqoop从HDFS导入和导出数据到关系数据库系统/大型机, 以及将数据加载到HDFS.
  • 开发和维护数据仓库对象. 优化了Pyspark任务在Kubernetes集群上运行,通过使用Jenkins框架部署它们并集成git版本控制来加快数据处理.
  • SSIS设计器用于创建SSIS包,用于从OLE DB源和Excel电子表格导出异构数据到SQL Server.
  • 使用Databricks, Spark SQL和Scala将数据迁移到RV数据管道.
  • 监视YARN的应用程序,排除故障,并解决特定于集群的系统问题.
  • 作为NiFi大数据管道初始原型设计团队的关键成员. 该管道展示了数据输入和处理的端到端场景.
  • 使用NiFi工具确定是否将消息传递到目标系统. NiFi独一无二的CPU诞生了.
  • 配合HBase等NoSQL数据库,并集成Spark进行实时数据处理.
  • 围绕错误处理和记录Ansible/Jenkins作业结果定制逻辑.
  • Oozie Scheduler技术用于自动化管道过程,并协调提取数据的map-reduce操作, 而Zookeeper用于提供集群协调服务.
  • 创建Hive查询,通过将新数据与EDW(企业数据仓库)参考表和以前的度量进行比较,帮助数据分析师识别开发模式.
  • 参与规范设计、设计文档、数据建模和数据仓库设计. 我们评估了现有的和EDW(企业数据仓库)技术和流程,以确保我们的EDW/BI设计符合公司和组织的需求,同时也允许未来的扩展.
  • 在Scala中使用数据框架API,用于将组织成命名列的分布式数据集合转换, 使用Apache Spark Scala API开发预测分析.
  • 从事Hadoop, SOLR, Spark和基于kinesis的大数据集成和分析.
  • 建立大数据任务是为了将大量数据加载到S3数据湖中,并最终加载到AWS RedShift中, 并且创建了一个管道来允许连续的数据加载.
  • 利用Hive Joins优化了长时间运行的Hive搜索, vectorizations, Partitioning, Bucketing, and Indexing.
  • Designed, developed, 并在AWS EMR上使用Apache Spark的python API (PySpark)实现ETL管道.
  • 丰富的Apache/Hudi数据集插入/批量插入经验.
  • 使用Scala和Java API开发Spark程序,并在RDD上执行转换和操作.
  • 在Databricks上开发Spark作业来执行数据清理等任务, data validation, 标准化,然后根据用例应用转换.
  • 为了找到Kafka消息失败的场景,我使用了Kibana和Elastic搜索.
  • 参与通过调整内存和资源分配设置来调优Spark应用程序, 确定最佳批处理间隔时间, 并调整遗嘱执行人的数量,以适应不断增长的需求. EMR集群上部署了Spark和Hadoop任务.
  • 根据业务变化,参与安排每周一次和每月在Tableau Server上的数据刷新,以确保视图和仪表板准确显示更新的数据.

Technologies: Hadoop, HDFS, Java 8, Hive, Sqoop, HBase, Oozie, Storm, YARN, NiFi, Cassandra, Zookeeper, Spark, Kinesis, MySQL, Shell Script, AWS, EC2, Source Control, GIT, Tera数据SQL助手.

Sr. Data Engineer

机密,新泽西

Responsibilities:

  • 安装并配置Apache BigData Hadoop组件,如HDFS, MapReduce, YARN, Hive, HBase, Sqoop, Pig, Ambari, and Nifi.
  • Zookeeper被用来管理同步, serialization, 以及从JMS Solace迁移到Kinesis后整个集群的协调.
  • 设计和开发Azure数据工厂(ADF),以从各种源系统摄取数据, 包括关系型和非关系型, 满足业务功能需求.
  • 使用Azure数据工厂的集合, T-SQL, Spark SQL, 和U-SQL Azure数据湖分析来提取, transform, 并将数据从源系统加载到Azure数据存储服务.
  • 将数据摄取到一个或多个Azure服务(Azure数据湖), Azure Storage, Azure SQL, Azure DW)和Azure Databricks中的处理.
  • 使用Databricks和ADF, create pipelines, data flows, 以及复杂的数据转换和操作.
  • 创建了多个Databricks集群, provisioned, 并部署了用于批处理和连续流数据处理的基本库.
  • 使用Azure集群服务, Azure数据工厂V2将来自不同源系统的大量数据吸收到Azure数据湖Gen2中.
  • EC2设计和维护了多个应用程序,用于从S3摄取和传输数据到EMR和Redshift.
  • 使用AWS Kinesis Data Stream和Firehose将来自众多来源的数据摄取到S3中.
  • 使用Elastic Map Reduce (EMR) to AWS Redshift来处理存储在AWS中的许多tb的数据.
  • 使用Azure数据工厂V2, 执行从S3到Azure data Lake Gen2和SQL Server的全部数据加载.
  • 参与数据库迁移方法和集成转换解决方案,将遗留ETL流程转换为Azure Synapse兼容架构.
  • 实现Apache Spark数据处理项目,处理来自多个RDBMS和Streaming源的数据,并使用Scala和Java开发Spark应用程序.
  • 创建了一个Spark Scala笔记本,用于清理和操作多个表之间的数据.
  • 使用FTP Adaptor、Spark、Hive和Impala构建完整的数据管道.
  • 使用Scala实现Spark,并大量使用Spark SQL来实现更快的数据生成和处理.
  • 有在Azure Databricks中使用Spark SQL开发ETL解决方案的经验,用于数据提取, 从多个文件格式和数据源进行转换和聚合.
  • 为数据建模创建脚本, 为pm和em提供更好的访问Azure日志的挖掘.
  • 在Azure-databricks上执行Pyspark ETL管道的端到端交付,以执行通过Azure自动化帐户调度的Azure数据工厂(ADF)编排的数据转换,并使用Tidal Scheduler触发它们.
  • 响应SQL对象的客户端请求, schedules, 业务逻辑更新, 以及特别的查询, 以及分析和解决数据同步问题.
  • 在Power BI和Tableau中为商业智能创建自定义报告.
  • 与Sqoop合作,从各种数据源导入额外的公司数据到HDFS, 使用Hive进行转换, Map Reduce, 最后将数据加载到HBase表中.
  • 改进了几个速度, 包括利用小型数据集的分布式缓存, partitioning, Hive中桶, 和地图侧连接.
  • 创建链接服务以将数据从SFTP移动到Azure数据湖.
  • Using Pyspark, 我创建了许多Databricks Spark任务来执行几个表对表的事务.

Technologies: Azure数据工厂(ADF v2), Azure Databricks (PySpark), Azure Data Lake, 火花(Python / Scala), Hive, Apache Nifi 1.8.0, Jenkins, Kinesis, Spark Streaming, Docker Containers, PostgreSQL, RabbitMQ, Celery, Flask, ELK Stack, AWS, MS-Azure, Azure SQL数据库, Azure功能和应用, Azure Data Lake, Azure Synapse, BLOB Storage, SQL Server, Windows远程桌面, UNIX Shell脚本, AZURE PowerShell, ADLS Gen 2, Azure Cosmos DB, Azure Event Hub, Sqoop, Flume

AZURE /雪花工程师

Confidential, NJ

Responsibilities:

  • Analyze, design, 并开发使用Azure PaaS服务实现数据可视化的现代数据解决方案.
  • 使用Azure数据工厂的组合, T-SQL, Spark SQL, U-SQL Azure数据存储服务, extract, transform, 并将数据从源系统加载到Azure数据湖分析.
  • 迁移SQL数据库到Azure数据湖的经验, Azure数据湖分析, Azure SQL数据库, 数据砖和Azure SQL数据仓库,控制和授予数据库访问权限,并使用Azure数据工厂将本地数据库迁移到Azure数据湖存储.
  • 创建了Databricks Delta Lake进程,用于从各种来源(数据库)实时加载数据, Adobe, 和SAP)使用Python/PySpark代码到AWS S3数据湖.
  • 将数据摄取到一个或多个Azure服务(Azure数据湖), Azure Storage, Azure SQL, Azure DW)和Azure Databricks中的处理
  • 在ADF中使用链接服务/数据集/管道/提取创建管道, transform, 并从各种来源加载数据, 包括Azure SQL, Blob storage, Azure SQL数据仓库, write-back tool, and backwards.
  • 具有Hive查询分析海量结构化数据集的经验, unstructured, 半结构化数据.
  • 在GCP上运行的Hadoop集群中使用spark和Scala代码开发和部署结果.
  • 使用先进的Hive技术,如bucket, partitioning, 并优化自连接以提高结构化数据的性能.
  • 设计了CI/CD框架, tested, 并使用Kubernetes和Docker作为运行时环境进行部署.
  • 负责估计集群大小, monitoring, 以及Spark Data Bricks集群的故障排除.
  • 拥有几个客户业务分析问题的端到端转换, 将它们分解为适当的硬件(IaaS/PaaS/Hybrid)和软件(MapReduce)范例, 然后应用机器学习算法从数据湖中提取有用的信息.
  • 在云和On- prem硬件上, 通过中央Hadoop处理平台和相关技术(包括ETL工具和NoSQL数据库),调整和设计可扩展的大数据场景,以支持端到端业务用例.
  • 使用爱迪生Arduino防护罩开发了几个技术演示, Azure EventHub, 和流分析, 并将它们与PowerBI和Azure ML集成在一起,以展示Azure流分析的功能.

Technologies: Azure Data Factory(V2), Azure Databricks, Python 2.0、SSIS、Azure SQL、Azure数据湖、Azure Blob Storage、Spark 2.0, Hive.

大数据工程师

保密,沃特伯里CT

Responsibilities:

  • 对JSON执行Spark SQL操作, 将数据转换为带有数据帧的表格结构, 并将数据存储和写入Hive和HDFS.
  • 优化了Informatica映射和会话的性能,以便在消除瓶颈后改进流程并提高其效率.
  • 处理复杂的SQL查询,PL/SQL过程并将其转换为ETL任务
  • 创建基于风险的机器学习模型(逻辑回归、随机森林、支持向量机等.),根据历史业绩数据预测哪些客户更有可能违约,并对他们进行排序.
  • 使用不确定性矩阵(精度)评估模型输出, 召回以及Teradata资源和实用程序(BTEQ), Fast load, Multi Load, Fast Export, and TPUMP). .
  • 使用Spark 2实时摄取和处理Comcast设置框点击流事件.x, Spark Streaming, Databricks, Apache Storm, Kafka, Apache-Memory Igniter的网格(分布式缓存)
  • 使用各种DML和DDL命令进行数据检索和操作, such as Select, Insert, Update, Sub Queries, Inner Joins, Outer Joins, Union, Advanced SQL, and so on.
  • 使用Informatica Power Center.6.1, I extracted, transformed, 并从各种来源(如Oracle和平面文件)加载数据到Netezza数据仓库.
  • 参与从IDQ到权力中心的地图转移.
  • 数据从各种来源摄取,包括Kafka、Flume和TCP套接字.
  • 数据处理采用高级算法,通过高级函数(如map)表达, reduce, join, and window.

Technologies: Scala 2.12.8, Python 3.7.2、PySpark.4、Spark ML Lib, Spark SQL, TensorFlow.9, NumPy 1.15.2, Keras 2.2.4、PowerBI、Spark SQL、Spark Streaming、HIVE、Kafka、ORC、Avro、Parquet、HBase、HDFS.

大数据开发人员

Confidential

Responsibilities:

  • Develop, improve, 规模过程, structures, workflows, 以及数据管理和分析的最佳实践.
  • 具有大数据采集、存储、处理、分析工作经验.
  • 与产品负责人合作,开发产品变化效果的实验设计和测量方法.
  • 具有Pig和Hive等数据收集方法的实践经验, 数据吸收, Oozie用于调度, 和Zookeeper用于集群资源协调.
  • 在Apache Spark Scala代码库工作, 在rdd上执行操作和转换, Data Frames, 使用SparkSQL和Spark流上下文的数据集.
  • 使用Sqoop将数据从HDFS传输到关系数据库系统,反之亦然. 维护和故障排除
  • 采用Spring/MVC框架实现JSP/视图层之间的交互,采用J2EE和XML技术实现不同的设计模式.
  • 研究使用Spark后台和基于Spark的算法来提高现有Hadoop算法的效率和优化.
  • 使用Pig等各种大数据分析工具分析Hadoop集群, HBase database, and Sqoop.
  • 使用Impala和Sqoop进行NoSQL企业开发和数据加载到HBase.
  • 在Pig和Hive上执行多个MapReduce任务,进行数据清理和预处理.
  • 在YARN中使用MR1和MR2为大数据问题构建Hadoop解决方案.
  • 评估Hadoop及其生态系统对上述项目的适用性,并通过各种概念验证(POC)应用程序实施/验证,最终采用它们以从大数据Hadoop计划中受益.
  • 与恶意软件研究/数据科学团队密切合作,加强恶意站点检测, 以及基于机器学习/数据挖掘的大数据系统
  • 参与整个开发生命周期, 包括需求审查, design, development, implementation, 以及运营支持.

Technologies: Hadoop 3.0, Hive 2.1、J2EE、JDBC、Pig 0.16, HBase 1.1、Sqoop、NoSQL、Impala、Java、Spring、MVC、XML、Spark.9, PL/SQL, HDFS, JSON, Hibernate, Bootstrap, JQuery, JDBC, JSP, JavaScript, AJAX, Oracle 10g/11g, MySQL, SQL server, Teradata, Hbase, Cassandra

我们希望得到您的反馈!