Sr. 数据工程师简历
TX
SUMMARY
- 8年以上的IT专业经验, 专注于大数据生态系统, Hadoop架构, 和数据仓库.
- 数据架构专业知识, 包括数据摄取知识, pipeline design, Hadoop信息架构, data modeling, data mining, 复杂数据处理, ETL工作流程优化.
- 熟练掌握Scala, Apache HBase, Hive, Pig, Mahout, Oozie, Flume, Sqoop, Zookeeper, Spark, Spark SQL, Spark Streaming, Kinesis, Airflow, Yarn, and Hadoop (HDFS, MapReduce).
- 丰富的Spark应用程序设计经验,利用RDD进行高可扩展性的数据转换, Data Frame, 和Spark - SQL API.
- 广泛使用nosql数据库及其集成, 包括Dynamo DB, Cosmo DB, Mongo DB, Cassandra, and HBase.
- 熟练使用Cloudera, Hortonworks, Amazon EMR, Redshift, EC2, Azure HDInsight用于创建项目, implementation, deployment, 并使用Java/J2EE进行维护, Hadoop, and Spark.
- AWS云(EMR)的实践经验, EC2, RDS, EBS, S3, Lambda, Glue, Elasticsearch, Kinesis, SQS, DynamoDB, Redshift, ECS).
- 熟练使用MapReduce, Apache Crunch, Hive, Pig和Splunk处理Hadoop任务.
- 精通开发操作多种文件类型的复杂MapReduce系统, including Text, Sequence, XML, and JSON.
- 熟练创建用于交互分析的Spark-Scala和PySpark应用程序, batch processing, 流处理, 以及熟悉Spark的架构和部件.
- 使用Spark Data Frame Operations完成关键数据验证,并在Cloudera基础架构上广泛使用Spark Data Frame API对Hive数据进行分析.
- Scripting Python with proficiency; experience with NumPy for statistics, Matplotlib用于可视化, 以及用于数据管理的Pandas.
- 使用SparkSQL和Data Frames API将结构化和半结构化数据加载到Spark集群(API).
- 在构建shell脚本和处理UNIX/LINUX系统方面有很强的背景.
- 丰富的专业知识排除Spark应用程序问题,通过微调Spark应用程序和hive查询来优化系统性能.
- 开发了从Hive表中提取所需数据的高级HiveQL搜索, 根据需要构建Hive用户定义函数(udf).
- 对Hive分区和桶的概念有很好的理解, 以及管理表和外部表的设计,以提高效率.
- 在创建几个融合的kineesis生产者和消费者方面的专业知识,以满足业务需求. 将流数据放到HDFS中,使用Spark进行处理.
- 使用TDCH Teradata连接将数据从多个数据源加载到分区的Hive表中, such as Teradata, into HDFS.
- 有根据客户需求使用SQOOP将数据从HDFS传输到关系型数据库系统的经验.
- 高效使用Git、SVN、Bamboo、Bitbucket等版本控制系统.
- 熟悉使用Informatica Power Center进行数据仓库的ETL技术, OLAP, and OLTP.
- 具有开发复杂Oracle查询和使用PL/SQL构建存储过程的数据库架构的丰富经验, Functions, and Triggers.
TECHNICAL SKILLS
AWS Services: S3、EC2、EMR、Redshift、RDS、Lambda、Kinesis、SNS、SQS、AMI、IAM、云形成
Hadoop组件/大数据: HDFS, Hue, MapReduce, PIG, Hive, HCatalog, Hbase, Sqoop, Impala, Zookeeper, Flume, Kafka, Yarn, Cloudera Manager, Kerberos, pyspark Kafka, Snowflake
整体云服务: Azure数据工厂(ADF), Azure数据库(ADLS), AWS(亚马逊网络服务), 弹性地图缩减(EMR),S3(简单存储服务), λ(serverless), 弹性货柜服务, SNS(简易通知服务), 简单队列服务(SQS)
Spark组件: Apache Spark,数据框架,Spark SQL, Spark, YARN, Pair rdd
Databases: Oracle, Microsoft SQL Server, MySQL, DB2, Teradata
编程语言: Java, Scala, Impala, Python.
NoSQL Databases: NoSQL数据库(Hbase, Cassandra, Mongo DB)
Methodologies: 敏捷(Scrum)、瀑布、UML、设计模式、SDLC.
Cloud Services: AWS, Azure
ETL Tools: 人才开放工作室 & 人才企业平台
报告和ETL工具: Tableau, Power BI, AWS GLUE, SSIS, SSRS, Informatica, Data Stage
专业经验
Sr. Data Engineer
Confidential, TX
Responsibilities:
- 使用开发的Spark程序处理原始数据, 填充staging表, 并存储精细数据(JSON), XML, CSV. Etc.)在企业数据仓库的分区表中.
- 开发流应用程序,接受来自Amazon AWS Kinesis队列的消息,并使用Spark和Kinesis将数据发布到AWS S3桶.
- 使用AWS EFS通过AWS EC2提供可扩展的文件存储.
- 构建数据管道,使用Spark-Scala将数据从On-Prem移动到云.
- 使用T-SQL将数据仓库和数据集市中的数据集成到基于云的数据结构中.
- 为RDBMS和Hive中的分析应用开发SQL和HQL中的ddl和dml脚本.
- 编写Shell脚本用于参数化Oozie工作流中的Hive活动和调度任务.
- Kinesis用于向HDFS和Cassandra填充大量数据.
- 使用Amazon EKS在云端或本地运行、扩展和部署应用程序.ki
- 开发PySpark代码来模拟在本地环境中执行的转换,分析SQL脚本并设计使用PySpark实现的解决方案.
- 广泛使用Sqoop从HDFS导入和导出数据到关系数据库系统/大型机, 以及将数据加载到HDFS.
- 开发和维护数据仓库对象. 优化了Pyspark任务在Kubernetes集群上运行,通过使用Jenkins框架部署它们并集成git版本控制来加快数据处理.
- SSIS设计器用于创建SSIS包,用于从OLE DB源和Excel电子表格导出异构数据到SQL Server.
- 使用Databricks, Spark SQL和Scala将数据迁移到RV数据管道.
- 监视YARN的应用程序,排除故障,并解决特定于集群的系统问题.
- 作为NiFi大数据管道初始原型设计团队的关键成员. 该管道展示了数据输入和处理的端到端场景.
- 使用NiFi工具确定是否将消息传递到目标系统. NiFi独一无二的CPU诞生了.
- 配合HBase等NoSQL数据库,并集成Spark进行实时数据处理.
- 围绕错误处理和记录Ansible/Jenkins作业结果定制逻辑.
- Oozie Scheduler技术用于自动化管道过程,并协调提取数据的map-reduce操作, 而Zookeeper用于提供集群协调服务.
- 创建Hive查询,通过将新数据与EDW(企业数据仓库)参考表和以前的度量进行比较,帮助数据分析师识别开发模式.
- 参与规范设计、设计文档、数据建模和数据仓库设计. 我们评估了现有的和EDW(企业数据仓库)技术和流程,以确保我们的EDW/BI设计符合公司和组织的需求,同时也允许未来的扩展.
- 在Scala中使用数据框架API,用于将组织成命名列的分布式数据集合转换, 使用Apache Spark Scala API开发预测分析.
- 从事Hadoop, SOLR, Spark和基于kinesis的大数据集成和分析.
- 建立大数据任务是为了将大量数据加载到S3数据湖中,并最终加载到AWS RedShift中, 并且创建了一个管道来允许连续的数据加载.
- 利用Hive Joins优化了长时间运行的Hive搜索, vectorizations, Partitioning, Bucketing, and Indexing.
- Designed, developed, 并在AWS EMR上使用Apache Spark的python API (PySpark)实现ETL管道.
- 丰富的Apache/Hudi数据集插入/批量插入经验.
- 使用Scala和Java API开发Spark程序,并在RDD上执行转换和操作.
- 在Databricks上开发Spark作业来执行数据清理等任务, data validation, 标准化,然后根据用例应用转换.
- 为了找到Kafka消息失败的场景,我使用了Kibana和Elastic搜索.
- 参与通过调整内存和资源分配设置来调优Spark应用程序, 确定最佳批处理间隔时间, 并调整遗嘱执行人的数量,以适应不断增长的需求. EMR集群上部署了Spark和Hadoop任务.
- 根据业务变化,参与安排每周一次和每月在Tableau Server上的数据刷新,以确保视图和仪表板准确显示更新的数据.
Technologies: Hadoop, HDFS, Java 8, Hive, Sqoop, HBase, Oozie, Storm, YARN, NiFi, Cassandra, Zookeeper, Spark, Kinesis, MySQL, Shell Script, AWS, EC2, Source Control, GIT, Tera数据SQL助手.
Sr. Data Engineer
机密,新泽西
Responsibilities:
- 安装并配置Apache BigData Hadoop组件,如HDFS, MapReduce, YARN, Hive, HBase, Sqoop, Pig, Ambari, and Nifi.
- Zookeeper被用来管理同步, serialization, 以及从JMS Solace迁移到Kinesis后整个集群的协调.
- 设计和开发Azure数据工厂(ADF),以从各种源系统摄取数据, 包括关系型和非关系型, 满足业务功能需求.
- 使用Azure数据工厂的集合, T-SQL, Spark SQL, 和U-SQL Azure数据湖分析来提取, transform, 并将数据从源系统加载到Azure数据存储服务.
- 将数据摄取到一个或多个Azure服务(Azure数据湖), Azure Storage, Azure SQL, Azure DW)和Azure Databricks中的处理.
- 使用Databricks和ADF, create pipelines, data flows, 以及复杂的数据转换和操作.
- 创建了多个Databricks集群, provisioned, 并部署了用于批处理和连续流数据处理的基本库.
- 使用Azure集群服务, Azure数据工厂V2将来自不同源系统的大量数据吸收到Azure数据湖Gen2中.
- EC2设计和维护了多个应用程序,用于从S3摄取和传输数据到EMR和Redshift.
- 使用AWS Kinesis Data Stream和Firehose将来自众多来源的数据摄取到S3中.
- 使用Elastic Map Reduce (EMR) to AWS Redshift来处理存储在AWS中的许多tb的数据.
- 使用Azure数据工厂V2, 执行从S3到Azure data Lake Gen2和SQL Server的全部数据加载.
- 参与数据库迁移方法和集成转换解决方案,将遗留ETL流程转换为Azure Synapse兼容架构.
- 实现Apache Spark数据处理项目,处理来自多个RDBMS和Streaming源的数据,并使用Scala和Java开发Spark应用程序.
- 创建了一个Spark Scala笔记本,用于清理和操作多个表之间的数据.
- 使用FTP Adaptor、Spark、Hive和Impala构建完整的数据管道.
- 使用Scala实现Spark,并大量使用Spark SQL来实现更快的数据生成和处理.
- 有在Azure Databricks中使用Spark SQL开发ETL解决方案的经验,用于数据提取, 从多个文件格式和数据源进行转换和聚合.
- 为数据建模创建脚本, 为pm和em提供更好的访问Azure日志的挖掘.
- 在Azure-databricks上执行Pyspark ETL管道的端到端交付,以执行通过Azure自动化帐户调度的Azure数据工厂(ADF)编排的数据转换,并使用Tidal Scheduler触发它们.
- 响应SQL对象的客户端请求, schedules, 业务逻辑更新, 以及特别的查询, 以及分析和解决数据同步问题.
- 在Power BI和Tableau中为商业智能创建自定义报告.
- 与Sqoop合作,从各种数据源导入额外的公司数据到HDFS, 使用Hive进行转换, Map Reduce, 最后将数据加载到HBase表中.
- 改进了几个速度, 包括利用小型数据集的分布式缓存, partitioning, Hive中桶, 和地图侧连接.
- 创建链接服务以将数据从SFTP移动到Azure数据湖.
- Using Pyspark, 我创建了许多Databricks Spark任务来执行几个表对表的事务.
Technologies: Azure数据工厂(ADF v2), Azure Databricks (PySpark), Azure Data Lake, 火花(Python / Scala), Hive, Apache Nifi 1.8.0, Jenkins, Kinesis, Spark Streaming, Docker Containers, PostgreSQL, RabbitMQ, Celery, Flask, ELK Stack, AWS, MS-Azure, Azure SQL数据库, Azure功能和应用, Azure Data Lake, Azure Synapse, BLOB Storage, SQL Server, Windows远程桌面, UNIX Shell脚本, AZURE PowerShell, ADLS Gen 2, Azure Cosmos DB, Azure Event Hub, Sqoop, Flume
AZURE /雪花工程师
Confidential, NJ
Responsibilities:
- Analyze, design, 并开发使用Azure PaaS服务实现数据可视化的现代数据解决方案.
- 使用Azure数据工厂的组合, T-SQL, Spark SQL, U-SQL Azure数据存储服务, extract, transform, 并将数据从源系统加载到Azure数据湖分析.
- 迁移SQL数据库到Azure数据湖的经验, Azure数据湖分析, Azure SQL数据库, 数据砖和Azure SQL数据仓库,控制和授予数据库访问权限,并使用Azure数据工厂将本地数据库迁移到Azure数据湖存储.
- 创建了Databricks Delta Lake进程,用于从各种来源(数据库)实时加载数据, Adobe, 和SAP)使用Python/PySpark代码到AWS S3数据湖.
- 将数据摄取到一个或多个Azure服务(Azure数据湖), Azure Storage, Azure SQL, Azure DW)和Azure Databricks中的处理
- 在ADF中使用链接服务/数据集/管道/提取创建管道, transform, 并从各种来源加载数据, 包括Azure SQL, Blob storage, Azure SQL数据仓库, write-back tool, and backwards.
- 具有Hive查询分析海量结构化数据集的经验, unstructured, 半结构化数据.
- 在GCP上运行的Hadoop集群中使用spark和Scala代码开发和部署结果.
- 使用先进的Hive技术,如bucket, partitioning, 并优化自连接以提高结构化数据的性能.
- 设计了CI/CD框架, tested, 并使用Kubernetes和Docker作为运行时环境进行部署.
- 负责估计集群大小, monitoring, 以及Spark Data Bricks集群的故障排除.
- 拥有几个客户业务分析问题的端到端转换, 将它们分解为适当的硬件(IaaS/PaaS/Hybrid)和软件(MapReduce)范例, 然后应用机器学习算法从数据湖中提取有用的信息.
- 在云和On- prem硬件上, 通过中央Hadoop处理平台和相关技术(包括ETL工具和NoSQL数据库),调整和设计可扩展的大数据场景,以支持端到端业务用例.
- 使用爱迪生Arduino防护罩开发了几个技术演示, Azure EventHub, 和流分析, 并将它们与PowerBI和Azure ML集成在一起,以展示Azure流分析的功能.
Technologies: Azure Data Factory(V2), Azure Databricks, Python 2.0、SSIS、Azure SQL、Azure数据湖、Azure Blob Storage、Spark 2.0, Hive.
大数据工程师
保密,沃特伯里CT
Responsibilities:
- 对JSON执行Spark SQL操作, 将数据转换为带有数据帧的表格结构, 并将数据存储和写入Hive和HDFS.
- 优化了Informatica映射和会话的性能,以便在消除瓶颈后改进流程并提高其效率.
- 处理复杂的SQL查询,PL/SQL过程并将其转换为ETL任务
- 创建基于风险的机器学习模型(逻辑回归、随机森林、支持向量机等.),根据历史业绩数据预测哪些客户更有可能违约,并对他们进行排序.
- 使用不确定性矩阵(精度)评估模型输出, 召回以及Teradata资源和实用程序(BTEQ), Fast load, Multi Load, Fast Export, and TPUMP). .
- 使用Spark 2实时摄取和处理Comcast设置框点击流事件.x, Spark Streaming, Databricks, Apache Storm, Kafka, Apache-Memory Igniter的网格(分布式缓存)
- 使用各种DML和DDL命令进行数据检索和操作, such as Select, Insert, Update, Sub Queries, Inner Joins, Outer Joins, Union, Advanced SQL, and so on.
- 使用Informatica Power Center.6.1, I extracted, transformed, 并从各种来源(如Oracle和平面文件)加载数据到Netezza数据仓库.
- 参与从IDQ到权力中心的地图转移.
- 数据从各种来源摄取,包括Kafka、Flume和TCP套接字.
- 数据处理采用高级算法,通过高级函数(如map)表达, reduce, join, and window.
Technologies: Scala 2.12.8, Python 3.7.2、PySpark.4、Spark ML Lib, Spark SQL, TensorFlow.9, NumPy 1.15.2, Keras 2.2.4、PowerBI、Spark SQL、Spark Streaming、HIVE、Kafka、ORC、Avro、Parquet、HBase、HDFS.
大数据开发人员
Confidential
Responsibilities:
- Develop, improve, 规模过程, structures, workflows, 以及数据管理和分析的最佳实践.
- 具有大数据采集、存储、处理、分析工作经验.
- 与产品负责人合作,开发产品变化效果的实验设计和测量方法.
- 具有Pig和Hive等数据收集方法的实践经验, 数据吸收, Oozie用于调度, 和Zookeeper用于集群资源协调.
- 在Apache Spark Scala代码库工作, 在rdd上执行操作和转换, Data Frames, 使用SparkSQL和Spark流上下文的数据集.
- 使用Sqoop将数据从HDFS传输到关系数据库系统,反之亦然. 维护和故障排除
- 采用Spring/MVC框架实现JSP/视图层之间的交互,采用J2EE和XML技术实现不同的设计模式.
- 研究使用Spark后台和基于Spark的算法来提高现有Hadoop算法的效率和优化.
- 使用Pig等各种大数据分析工具分析Hadoop集群, HBase database, and Sqoop.
- 使用Impala和Sqoop进行NoSQL企业开发和数据加载到HBase.
- 在Pig和Hive上执行多个MapReduce任务,进行数据清理和预处理.
- 在YARN中使用MR1和MR2为大数据问题构建Hadoop解决方案.
- 评估Hadoop及其生态系统对上述项目的适用性,并通过各种概念验证(POC)应用程序实施/验证,最终采用它们以从大数据Hadoop计划中受益.
- 与恶意软件研究/数据科学团队密切合作,加强恶意站点检测, 以及基于机器学习/数据挖掘的大数据系统
- 参与整个开发生命周期, 包括需求审查, design, development, implementation, 以及运营支持.
Technologies: Hadoop 3.0, Hive 2.1、J2EE、JDBC、Pig 0.16, HBase 1.1、Sqoop、NoSQL、Impala、Java、Spring、MVC、XML、Spark.9, PL/SQL, HDFS, JSON, Hibernate, Bootstrap, JQuery, JDBC, JSP, JavaScript, AJAX, Oracle 10g/11g, MySQL, SQL server, Teradata, Hbase, Cassandra