国内最专业的IT技术学习网

UI设计

当前位置:主页 > UI设计 >

作为初创公司的第一位数据工程师,我学到了什

发布时间:2019/09/17标签:   数据    点击量:

原标题:作为初创公司的第一位数据工程师,我学到了什
一个没无数据工程教训的人成了一家始创公司的第一名数据工程师,这是一项艰难的挑衅,但报答也是很可观的。公司在招人的时间不只要找到适合的人,还要让他们信任参加公司是准确的抉择。当我收到 EmCasa 公司的口试邀约的时间,我是别的一家公司的数据迷信家。他们想找一名能够关心他们构造数据的人。我问他们当初曾经有哪些数据了,他们真挚地答复我:“咱们只要 PostgreSQL 数据库里的几张表,还实验应用了一些 BI 东西,仅此罢了”。听了他们的话,我也很老实地告知他们:我没有亮眼的学位,之前也没做过数据工程师,不懂 Spark,不会 Airflow,不是 ETL 方面的专家,也不懂测试和 Git 之类的货色,我也不是一位开辟职员。但我见过许多货色,有一些很好,有一些还不错但仍有晋升的空间,另有一些完整不可。我的主意是要只管幸免去实验已知弗成行的货色。我不晓得他们是怎样想的,总之最初我成了他们公司的第一名数据工程师。在参加这家公司后,所有都像他们之前所说的那样。我有充足的发挥空间,能够依照我以为的最好的方法去做每一件事件。第一周,咱们就制订了一些季度 OKR: 从 Facebook Ad、Google Ad、SalesForce 和其余第三方效劳猎取数据; 完成一个 BI 平台; 将物业估价算法正确度进步 20%; 将评价模子计划成自力的 API; 更新和改良 Web 爬虫。为了从第三方效劳提取数据,咱们开端调研 ETL 处理计划,比方 StitchData、Fivetran、Segment、Alooma、Rivery,等等。要为每个第三方效劳 API 构建自界说集成计划须要破费许多时光,但咱们速率要快,而应用 ETL 效劳处理计划能够为咱们节约几个月的开辟和保护时光。咱们决议应用 Rivery,并在两周内搭建了一个 Redshift 集群,用来天天更新来自第三方效劳的数据。这个时间,Luca 参加了咱们,成了咱们的 BI 剖析师。他当初有许多数据能够玩了。咱们还应用 Metabase 作为仪表盘。到现在为止,所有都很顺遂。咱们终究有了真正的数据,而不仅是 PostgreSQL 里的几个表了!下一步是改良物业估价模子,并将其作为一个自力的 API(之前的模子是与后端绑定在一同的)。但咱们没有充足的数据来创立新模子(固然确切有了一些数据,但还不敷)。因而,我把眼光投向了咱们的 Web 爬虫东西。它是用 Elixir(咱们的后端就是用 Elixir 开辟的)开辟的,但我不懂 Elixir,因而我决议用 Python 重新开端开辟另一个爬虫。我创立了一个叫作 Spatula 的 Python 包,它能够从其余网站爬取数据清单,并将它们保留到 S3。这个时间,咱们的数据迷信家 Priscila 也参加出去,她担任处置旧数据。我在当地运转 Spatula,她便可以应用 Athena 查问数据,而后开端建模。接上去,我开端研讨 Airflow,不外我碰到了一些费事。一个是进修怎样编写 DAG,一个是进修怎样将 Airflow 牢靠地安排到 AWS 上。我花了许多时光进修 Airflow、Terraform、Docker 和 AWS ECS,才顺遂地在 AWS 长进行了第一次安排(https://github.com/nicor88/aws-ecs-airflow),而后又花了更多的时光依照咱们的需要停止了定制。我担忧这项义务会占用太多时光,以是我问司理能否能够把时光今后推一点,并换一种方法来部署义务(我晓得这类方法从久远来看是行欠亨的)。司理的答复是:“咱们在口试你的时间就晓得你的情形,有些货色你也不懂,但你能够花时光去学,找到准确的方法来实现这些义务”。这类治理姿势和”做准确的事件“的许诺是我在其余公司从未见过的。随后,咱们花了更多的力量安排好了 Airflow,让 Spatula 爬虫每周爬取一次数据。

上一篇:磁盘的IO重排序与调度策略

下一篇:没有了

返回
版权信息Copyright © 银河官网 版权所有    ICP备案编号:鲁ICP备09013610号